👩🎓✍/BigData 분석기사
21. 의사결정 나무, Decision Tree
글로랴
2021. 3. 16. 15:19
Decision Tree, 의사결정 나무
데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
(1) 응용
- 신청자 거절 기준이 명확히 문서화되고 편향되지 않은 신용 평가 모델
- 경영진이나 광고 대행사와 공유될 고객 만족이나 고객 이탈과 같은 고객 행동 마케팅 연구
- 실험실 측정, 증상, 질병 진행률을 기반으로 하는 질병 진단
(2) 장단점
🥰 | 😥 |
- 많은 유형의 문제에 잘 실행되는 범용 분류기이다. - 수치 특징, 명목 특징, 누락 데이터를 다룰 수 있는 고도로 자동화된 학습 과정이다. - 중요하지 않은 특징은 제외한다. - 작은 데이터셋과 큰 데이터셋에 모두 사용될 수 있다. - 다른 복잡한 모델보다 더 효율적이다. - 해석의 용이성 - 상호작용 효과의 해석 가능 - 비모수적 모형 - 유연성과 정확도가 높음 |
- 의사 결정 트리 모델이 레벨 수가 많은 특징의 분할로 편향될 수 있다. - 모델이 과적합 또는 과소적합되기 쉽다. - 축 평행 분할에 의존하기 때문에 어떤 관계는 모델링이 어려울 수 있다. - 훈련 데이터에서 작은 변화가 결정 로직에 큰 변화를 초래할 수 있다. - 큰 트리는 해석이 어렵고 트리가 만든 결정은 직관적이지 않아 보일 수 있다. - 비연속성 - 선형성 또는 주 효과의 결여 - 비안정성 |
(3) 의사결정나무의 분석 과정
의사결정나무 성장(Growing) - 가지치기(Pruning) - 타당성 평가 - 해석 및 예측
(4) 의사결정나무의 성장 - 분리 기준
- 이산형 목표변수
- 카이제곱 통계량의 p-값
- 지니 지수(Gini Index)
- 엔트로피 지수(Entropy Index)
- 연속형 목표변수
- 분산분석에서 F-통계량
- 분산의 감소량
(5) 의사결정나무 알고리즘
- CART
- 가장 널리 사용되는 의사결정나무 알고리즘
- 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류 수행
- 불순도 측도 : 이산형 - 지니 지수, 연속형 - 분산의 감소량
- 분리 방법 : 이진 분리(Binary Split)
- C4.5와 C5.0
- 목표변수가 반드시 범주형
- 불순도 측도 : 엔트로피 지수 사용
- 분리 방법 : 다지 분리(Multiple Split)
- CHAID
- 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.
- 불순도 측도 : 카이제곱 통계량, F-검정
- 분리 방법 : 다지 분리
- QUEST
- 변수의 선택에서 범주의 개수가 많은 범주형 변수로서 편향이 심각한 CART 문제점을 개선한 알고리즘
- 변수 선택 편향(Bias)가 거의 없음
- 불순도 측도 : 카이제곱 통계량, F-검정
- 분리 방법 : 이진 분리(Binary Split)
구분 | CART | C5.0 | CHAID | QUEST |
목표 변수 | - 이산형 - 연속형 |
- 범주형 | - 범주형 - 연속형 |
- 범주형 |
예측 변수 | - 범주형 - 연속형 |
- 범주형 - 연속형 |
- 범주형 | - 범주형 - 연속형 |
분리 기준 | - 지니 지수 - 분산의 감소량 |
- 엔트로피 지수 | - 카이제곱 통계량 - F-검정 |
- 카이제곱 통계량 - F-검정 |
분리 방법 | - 이진 분리 | - 다지 분리 | - 다지 분리 | - 이진 분리 |
반응형