- 주어진 데이터를 여러 개의 상이한 그룹으로 분할한다
- 그룹 내 중심을 반복적으로 구해, 데이터 정밀도를 향상한다
K-Means 클러스터링은 비지도 학습(Unsupervised Learning)으로 Clustering을 하는 알고리즘이다.
이 알고리즘은 주어진 데이터를 여러 개의 상이한 클러스터로 그룹화한다
단계별 과정 : 반복
1. Set up Centroids
- 클러스터의 개수(K)를 결정합니다.
- K개의 클러스터 중심점을 무작위로 초기화합니다.
2. Distance Matrix
- 각 데이터 포인트(고객)를 거리에 기반하여 가장 가까운 클러스터 중심점에 할당합니다.
각 Centroid로부터 데이터 포인트의 거리를 Distance Matrix에 기록하고, 이를 중심으로 클러스터에 할당합니다
3. Clustering
- 각 클러스터 내 데이터 포인트의 평균을 계산하여 클러스터 중심점을 업데이트합니다.
- 클러스터 중심점이 더 이상 움직이지 않거나 알고리즘이 수렴할 때까지 반복합니다
K-Means Clustering의 장단점
- 장점
- K-Means는 계산적으로 효율적이며 구현이 쉽습니다.
- 대용량 데이터셋에서도 잘 작동하며 많은 수의 특성을 처리할 수 있습니다.
- 단점
- K-Means는 클러스터 중심점의 초기 위치에 민감하며, 지역 최적해에 수렴할 수 있습니다.
- 또한, 클러스터가 구면적이고 분산이 동일하다고 가정합니다.
레퍼런스
- K-Means Clustering - 유튜브 강의
부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>
'AI' 카테고리의 다른 글
Intro. 머신러닝 개념 쉽게 잡고 가자 (0) | 2023.07.13 |
---|---|
K - Means 알고리즘 실습 (1) | 2023.07.12 |
Clustering (0) | 2023.07.11 |
Support Vector Machine (0) | 2023.07.11 |
sigmoid 함수 (0) | 2023.07.11 |