일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 정말
- 너무오래됐다
- 색상변경
- 언제또가보지
- 멜버른
- 파이썬
- 가고싶은데
- 청청구역
- 보라카이
- 빅데이터분석기사필기
- 유니코드 제거
- 방향변경
- BeautifulSoup
- 갈자신이없다
- 크롤링
- 호주
- 애니메이션
- 필기후기
- selenium
- 빅데이터분석기사
- 사각형변형
- 오류
- 마우스클릭
- 데이터전처리
- OpenGL
- 빅데이터분석기사후기
- 예쁜곳
Archives
- Today
- Total
wisdiom 아니고 wisdom
21. 의사결정 나무, Decision Tree 본문
Decision Tree, 의사결정 나무
데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
(1) 응용
- 신청자 거절 기준이 명확히 문서화되고 편향되지 않은 신용 평가 모델
- 경영진이나 광고 대행사와 공유될 고객 만족이나 고객 이탈과 같은 고객 행동 마케팅 연구
- 실험실 측정, 증상, 질병 진행률을 기반으로 하는 질병 진단
(2) 장단점
🥰 | 😥 |
- 많은 유형의 문제에 잘 실행되는 범용 분류기이다. - 수치 특징, 명목 특징, 누락 데이터를 다룰 수 있는 고도로 자동화된 학습 과정이다. - 중요하지 않은 특징은 제외한다. - 작은 데이터셋과 큰 데이터셋에 모두 사용될 수 있다. - 다른 복잡한 모델보다 더 효율적이다. - 해석의 용이성 - 상호작용 효과의 해석 가능 - 비모수적 모형 - 유연성과 정확도가 높음 |
- 의사 결정 트리 모델이 레벨 수가 많은 특징의 분할로 편향될 수 있다. - 모델이 과적합 또는 과소적합되기 쉽다. - 축 평행 분할에 의존하기 때문에 어떤 관계는 모델링이 어려울 수 있다. - 훈련 데이터에서 작은 변화가 결정 로직에 큰 변화를 초래할 수 있다. - 큰 트리는 해석이 어렵고 트리가 만든 결정은 직관적이지 않아 보일 수 있다. - 비연속성 - 선형성 또는 주 효과의 결여 - 비안정성 |
(3) 의사결정나무의 분석 과정
의사결정나무 성장(Growing) - 가지치기(Pruning) - 타당성 평가 - 해석 및 예측
(4) 의사결정나무의 성장 - 분리 기준
- 이산형 목표변수
- 카이제곱 통계량의 p-값
- 지니 지수(Gini Index)
- 엔트로피 지수(Entropy Index)
- 연속형 목표변수
- 분산분석에서 F-통계량
- 분산의 감소량
(5) 의사결정나무 알고리즘
- CART
- 가장 널리 사용되는 의사결정나무 알고리즘
- 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류 수행
- 불순도 측도 : 이산형 - 지니 지수, 연속형 - 분산의 감소량
- 분리 방법 : 이진 분리(Binary Split)
- C4.5와 C5.0
- 목표변수가 반드시 범주형
- 불순도 측도 : 엔트로피 지수 사용
- 분리 방법 : 다지 분리(Multiple Split)
- CHAID
- 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.
- 불순도 측도 : 카이제곱 통계량, F-검정
- 분리 방법 : 다지 분리
- QUEST
- 변수의 선택에서 범주의 개수가 많은 범주형 변수로서 편향이 심각한 CART 문제점을 개선한 알고리즘
- 변수 선택 편향(Bias)가 거의 없음
- 불순도 측도 : 카이제곱 통계량, F-검정
- 분리 방법 : 이진 분리(Binary Split)
구분 | CART | C5.0 | CHAID | QUEST |
목표 변수 | - 이산형 - 연속형 |
- 범주형 | - 범주형 - 연속형 |
- 범주형 |
예측 변수 | - 범주형 - 연속형 |
- 범주형 - 연속형 |
- 범주형 | - 범주형 - 연속형 |
분리 기준 | - 지니 지수 - 분산의 감소량 |
- 엔트로피 지수 | - 카이제곱 통계량 - F-검정 |
- 카이제곱 통계량 - F-검정 |
분리 방법 | - 이진 분리 | - 다지 분리 | - 다지 분리 | - 이진 분리 |
반응형
'👩🎓✍ > BigData 분석기사' 카테고리의 다른 글
23. 서포트 벡터 머신, SVM (0) | 2021.03.16 |
---|---|
22. 인공신경망, ANN (0) | 2021.03.16 |
20. 회귀 분석, Regression Analysis (0) | 2021.03.16 |
19. 분석 모형 절차 (0) | 2021.03.15 |
18. 추론 통계 (0) | 2021.03.11 |
Comments