👩🎓✍/BigData 분석기사
31. 앙상블 분석
글로랴
2021. 3. 20. 20:24
앙상블, Ensemble
여러 가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법
(1) 앙상블 특징
- 보다 높은 신뢰성 확보
- 정확도 상승
- 원인분석에 부적합
(2) 앙상블 기법 종류
- 배깅(Bagging) : 학습 데이터에서 n개의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 다수결을 통해 최종 예측 모형을 만다는 알고리즘이다.
- 분산감소, 결측값이 존재할 때 강함, 소량 데이터 유리, 단순할수록 유리
- 부스팅(Boosting) : 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
- 예측력 강화, 가중치 재조정, 과대적합 없음, 대용량 데이터 유리, 복잡할수록 유리
- 랜덤 포레스트(Random Forest) : 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 → 대표 변수 샘플 도출
- 포레스트 크기
- 최대 허용 깊이
- 임의성 정도
반응형