Decision Tree
- 데이터 분류 기준을 학습하고, 트리 구조로 값을 예측한다
- 정보 이득이 높은 방향으로 데이터를 분할한다
의사결정 트리는 데이터를 분류하거나 값(레이블)을 예측하는데 사용하는 트리 구조 알고리즘이다
이 알고리즘은 각 노드에서 특정 속성에 대한 판단을 내리고 그 결과에 따라 데이터를 분할하는 방식으로 동작합니다.
왜 Machine Learning인가?
데이터의 특징을 기반으로 결정을 내리며, 이 결정 규칙을 학습 데이터로부터 자동으로 학습하기 때문입니다.
의사결정 트리의 순서는 각 속성의 중요도에 따라 자동으로 결정되며, 이 중요도는 데이터로부터 학습하는 과정을 통해 결정됩니다.
주요 요점
트리를 구성하는데 있어 어떤 속성이 데이터를 분할하는지가 핵심이다.
이를 결정하기 위해 해당 속성이 얼마나 순수한(pure) 노드를 생성하는지 평가한다
Entropy : 노드의 순수성 판단
엔트로피는 데이터셋의 불순도 혹은 무질서도를 측정하는 데 사용되는 척도입니다.
이는 결정 트리 알고리즘에서 데이터를 분할하는 기준으로 사용되며, 노드의 엔트로피를 최소화하는 방향으로 데이터를 분할합니다.
엔트로피의 계산 공식은 다음과 같습니다
여기서 E(S)는 주어진 데이터셋 S의 엔트로피를 의미하고, P_i는 해당 데이터셋에서 i번째 클래스가 나타나는 확률을 의미합니다.
엔트로피의 값은 0에서 1 사이를 가집니다.
- 0 : 데이터셋이 완전히 순수함 (즉, 한 클래스의 샘플만을 포함함)
- 1 : 데이터셋의 클래스 분포가 균등하게 분포되어 있음(즉, 모든 클래스의 샘플이 동일한 비율로 포함됨)
정보 이득은 분할 전후의 엔트로피 차이를 의미합니다. 분할을 통해 엔트로피가 감소하면, 정보 이득이 증가합니다
따라서 의사 결정을 할 때는 정보 이득을 최대화하는 속성으로 분할을 합니다
결론
의사 결정 트리는 재귀적 분할을 통해 데이터를 분류합니다.
가장 예측력이 높은 속성을 기준으로 데이터를 분할하는 것이 중요합니다.
각 분기점에서 가장 순수한 노드를 생성하는 속성을 선택하여 데이터를 분할하고, 모든 노드가 가능한 한 순수해질 때까지 이 과정을 반복하여 구성됩니다.
부족한 점이나 잘못 된 점을 알려주시면 시정하겠습니다 :>
'AI' 카테고리의 다른 글
Logistic Regression (0) | 2023.07.11 |
---|---|
Lab - Decision Trees (0) | 2023.07.10 |
Machine Learning (0) | 2023.07.10 |
AutoGPT 설치 방법 (0) | 2023.07.08 |
KNN(K-Nearset Neighbors) (0) | 2023.07.07 |