K-Means Clustering

Beomsu Koh 2023. 7. 12.

- 주어진 데이터를 여러 개의 상이한 그룹으로 분할한다
- 그룹 내 중심을 반복적으로 구해, 데이터 정밀도를 향상한다

K-Means 클러스터링은 비지도 학습(Unsupervised Learning)으로 Clustering을 하는 알고리즘이다.

이 알고리즘은 주어진 데이터를 여러 개의 상이한 클러스터로 그룹화한다

단계별 과정 : 반복

각 Centroid로부터 데이터 포인트의 거리를 Distance Matrix에 기록하고, 이를 중심으로 클러스터에 할당합니다

장점
- K-Means는 계산적으로 효율적이며 구현이 쉽습니다.
- 대용량 데이터셋에서도 잘 작동하며 많은 수의 특성을 처리할 수 있습니다.
단점
- K-Means는 클러스터 중심점의 초기 위치에 민감하며, 지역 최적해에 수렴할 수 있습니다.
- 또한, 클러스터가 구면적이고 분산이 동일하다고 가정합니다.