Decision Tree

Beomsu Koh 2023. 7. 10.

- 데이터 분류 기준을 학습하고, 트리 구조로 값을 예측한다
- 정보 이득이 높은 방향으로 데이터를 분할한다

의사결정 트리는 데이터를 분류하거나 값(레이블)을 예측하는데 사용하는 트리 구조 알고리즘이다
이 알고리즘은 각 노드에서 특정 속성에 대한 판단을 내리고 그 결과에 따라 데이터를 분할하는 방식으로 동작합니다.

왜 Machine Learning인가?

데이터의 특징을 기반으로 결정을 내리며, 이 결정 규칙을 학습 데이터로부터 자동으로 학습하기 때문입니다.
의사결정 트리의 순서는 각 속성의 중요도에 따라 자동으로 결정되며, 이 중요도는 데이터로부터 학습하는 과정을 통해 결정됩니다.

트리를 구성하는데 있어 어떤 속성이 데이터를 분할하는지가 핵심이다.
이를 결정하기 위해 해당 속성이 얼마나 순수한(pure) 노드를 생성하는지 평가한다

엔트로피는 데이터셋의 불순도 혹은 무질서도를 측정하는 데 사용되는 척도입니다.
이는 결정 트리 알고리즘에서 데이터를 분할하는 기준으로 사용되며, 노드의 엔트로피를 최소화하는 방향으로 데이터를 분할합니다.

엔트로피의 계산 공식은 다음과 같습니다

여기서 E(S)는 주어진 데이터셋 S의 엔트로피를 의미하고, P_i는 해당 데이터셋에서 i번째 클래스가 나타나는 확률을 의미합니다.

엔트로피의 값은 0에서 1 사이를 가집니다.

정보 이득은 분할 전후의 엔트로피 차이를 의미합니다. 분할을 통해 엔트로피가 감소하면, 정보 이득이 증가합니다
따라서 의사 결정을 할 때는 정보 이득을 최대화하는 속성으로 분할을 합니다

의사 결정 트리는 재귀적 분할을 통해 데이터를 분류합니다.
가장 예측력이 높은 속성을 기준으로 데이터를 분할하는 것이 중요합니다.

각 분기점에서 가장 순수한 노드를 생성하는 속성을 선택하여 데이터를 분할하고, 모든 노드가 가능한 한 순수해질 때까지 이 과정을 반복하여 구성됩니다.