계층적 클러스터링

Beomsu Koh 2023. 7. 16.

- 데이터 포인터를 계층적으로 분석해 클러스터링하는 방법
- 병합 클러스터링 : 하향식
- 분할형 클러스터링 : 상향식

계층적 클러스터링은 데이터 포인트들을 계층적인 클러스터나 클러스터의 트리 형태로 만들어가는 클러스터링 방법입니다.

Intro

계층적 클러스터링에는 각 데이터 포인트를 초기에는 하나의 클러스터로 간주하고, 기존 클러스터를 계속해서 병합하거나 분할하는 과정을 거칩니다.
이 과정은 모든 데이터 포인트가 하나의 클러스터로 병합될 때까지 계속됩니다.

1. 병합형 계층적 클러스터링

이 방법은 하향식 접근법을 사용합니다.
각 데이터 포인트는 자신만의 클러스터에서 시작하여 단계별로 클러스터들이 결합됩니다.
결국에는 모든 데이터 포인트를 포함한 하나의 클러스터만이 남게 됩니다.

클러스터의 결합은 클러스터 간의 거리를 기반으로 하는데, 이 거리는 여러 가지 방법으로 측정될 수 있습니다.
예를 들어, 클러스터의 중심점 간의 거리(평균 연결), 클러스터 내 가장 가까운 점들 사이의 거리(단일 연결), 또는 가장 먼 점들 사이의 거리(완전 연결) 등이 있습니다.

2. 분할형 계층적 클러스터링

이 방법은 상향식 접근법을 사용합니다.
모든 데이터 포인트는 하나의 클러스터에서 시작하여 이 큰 클러스터가 점점 작은 클러스터로 분할됩니다.
이 과정은 각 데이터 포인트가 자신만의 클러스터에 있을 때까지 계속됩니다

장점과 단점

장점

계층적 클러스터링은 클러스터의 포괄적인 계층을 제공하므로 데이터를 이해하고 해석하는 데 유용합니다.
미리 클러스터의 수를 지정할 필요가 없습니다. 이는 데이터에 대한 이해가 충분하지 않은 경우에 특히 유용합니다.

단점

시간 및 공간 복잡도가 높아 큰 데이터셋에는 적합하지 않습니다.
데이터 포인트 간의 거리를 측정하는 데 사용되는 거리 측정 방식에 따라 결과가 민감하게 변할 수 있습니다.
한 번 병합하거나 분할한 후에는 후속 단계에서 그 작업을 취소할 수 없습니다.

결론

계층적 클러스터링과 K-Means Clustering(또는 다른 클러스터링 알고리즘) 사이의 선택은 작업의 특정 요구 사항, 즉 데이터셋의 크기, 클러스터의 수, 데이터의 성격 등에 따라 달라집니다.

부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>

'AI' 카테고리의 다른 글

Back-propagation and Autograd (0)	2023.07.18
평균 제곱 오차 (Mean Squared Error, MSE) (0)	2023.07.17
Intro. 머신러닝 개념 쉽게 잡고 가자 (0)	2023.07.13
K - Means 알고리즘 실습 (1)	2023.07.12
K-Means Clustering (0)	2023.07.12