Decision Tree
Based on the lecture “Intro. to Machine Learning (2023-2)” by Prof. Je Hyuk Lee, Dept. of Data Science, The Grad. School, Kookmin Univ.
Decision Tree
-
결정 트리(Decision Tree) : 순도(Uniformity)를 최대로 가져가는 이진 판별 규칙들로 구성된 수형도(Tree)를 세우고 관측치를 분류하는 알고리즘
- 루트 노드(Root Node) : 깊이가
인 꼭대기 노드로서 최상위 노드 - 결정 노드(Decision Node) : 규칙 조건
- 리프 노드(Leaf Node) : 하위 노드가 존재하지 않는 노드로서 최종 범주
- 서브트리(Subtree) : 어떠한 규칙 노드를 루트 노드로 가지는 하위 트리로서 판별 규칙 집합의 부분집합
- 루트 노드(Root Node) : 깊이가
Recursive Partitioning
-
재귀적 분기(Recursive Partitioning) : 판별 규칙을 기준으로 상위 노드를 분할하여 순도가 높은 하위 노드를 생성하는 반복적인 과정
Discriminant Rule
-
어떤 노드에 대하여, 설명변수
를 기준으로 해당 노드를 분할한다고 하자 -
판별 규칙
의 비용 는 다음과 같음 : 결정 노드에 속한 관측치 갯수 : 좌측 하위 노드로 분기한 관측치 갯수 : 좌측 하위 노드의 불순도 : 우측 하위 노드로 분기한 관측치 갯수 : 우측 하위 노드의 불순도
-
설명변수
기준 분할 시 최적의 분기점 는 다음과 같음 -
특정 노드를 분할하는 최적의 설명변수
는 다음과 같음
Impurity
-
지니 지수(Gini Index) : 불순도를 경제적 불평등 개념 에 기초하여 계산한 지표
: 범주 갯수 : 노드 에서 번째 범주에 속하는 관측치 비율
-
엔트로피 지수(Entropy Index) : 불순도를 정보 획득의 불확실성 개념 에 기초하여 계산한 지표
: 범주 갯수 : 노드 에서 번째 범주에 속하는 관측치 비율
Pruning
-
가지치기(Pruning) : 자세하게 구분된 영역을 통합함으로써 과적합을 방지하는 기법으로서, Full Tree 를 생성하여 모든 노드에 대하여 비용 복잡도 지수를 계산하고, 그 값이 가장 낮은 노드에 대하여 가지치기를 반복적으로 수행하면서 최적의 가지치기 강도
하 트리를 도출함 -
비용 복잡도 지수(Cost-Complexity)
: 타깃 노드를 루트 노드로 하는 서브트리 : 의 리프 노드 집합 : 의 번째 리프 노드 : 에 속한 번째 관측치 벡터 : 가지치기 강도 : 의 훈련 관측치에 대한 예측 손실 : 타깃 노드의 비용 복잡도 지수
DTR
This post is licensed under
CC BY 4.0
by the author.