AI

K-Means Clustering

Beomsu Koh 2023. 7. 12.
- 주어진 데이터를 여러 개의 상이한 그룹으로 분할한다
- 그룹 내 중심을 반복적으로 구해, 데이터 정밀도를 향상한다

K-Means 클러스터링은 비지도 학습(Unsupervised Learning)으로 Clustering을 하는 알고리즘이다.

이 알고리즘은 주어진 데이터를 여러 개의 상이한 클러스터로 그룹화한다

단계별 과정 : 반복

1. Set up Centroids

  1. 클러스터의 개수(K)를 결정합니다.
  2. K개의 클러스터 중심점을 무작위로 초기화합니다.

2. Distance Matrix

  1. 각 데이터 포인트(고객)를 거리에 기반하여 가장 가까운 클러스터 중심점에 할당합니다.

각 Centroid로부터 데이터 포인트의 거리를 Distance Matrix에 기록하고, 이를 중심으로 클러스터에 할당합니다

3. Clustering

  1. 각 클러스터 내 데이터 포인트의 평균을 계산하여 클러스터 중심점을 업데이트합니다.
  2. 클러스터 중심점이 더 이상 움직이지 않거나 알고리즘이 수렴할 때까지 반복합니다

K-Means Clustering의 장단점

  • 장점
    • K-Means는 계산적으로 효율적이며 구현이 쉽습니다.
    • 대용량 데이터셋에서도 잘 작동하며 많은 수의 특성을 처리할 수 있습니다.
  • 단점
    • K-Means는 클러스터 중심점의 초기 위치에 민감하며, 지역 최적해에 수렴할 수 있습니다.
    • 또한, 클러스터가 구면적이고 분산이 동일하다고 가정합니다.

레퍼런스

  • K-Means Clustering - 유튜브 강의

부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>

'AI' 카테고리의 다른 글

Intro. 머신러닝 개념 쉽게 잡고 가자  (0) 2023.07.13
K - Means 알고리즘 실습  (1) 2023.07.12
Clustering  (0) 2023.07.11
Support Vector Machine  (0) 2023.07.11
sigmoid 함수  (0) 2023.07.11

댓글