👩🎓✍/BigData 분석기사
34. 분석 모형 개선
글로랴
2021. 3. 30. 13:31
(1) 과대 적합 방지
과대 적합은 제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생한다.
- 데이터 증강
- 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다.
- 모델의 복잡도 감소
- 은닉층의 수 감소
- 모델의 수용력 낮추기
- 가중치 규제 적용
- L1 규제 : λ|ω}
- L2 규제 : ½λω²
- 드롭아웃(Dropout) : 학습 과정에서 신경망 일부를 사용하지 않는 방법
- 초기 드롭아웃
- 공간적 드롭아웃
- 시간적 드롭아웃
(2) 매개변수 최적화
학습 모델과 실제 레이블과의 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다.
- 확률적 경사 하강법, SGD
- 기울기가 줄어드는 최적점 근처에서 느리게 진행한다.
- 탐색 경로가 지그재그로 크게 변한다.
- 모멘텀(Momentum)
- 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘
- 공이 구르는 듯한 모습
- AdaGrad
- 손실 함수의 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식
- Adam
- 모멘텀 방식과 AdaGrad 방식의 장점을 합친 알고리즘
(3) 분석 모형 융합
- 취합(Aggregation) 방법론
- 다수결
- 배깅, Bagging : 학습 데이터의 중복을 허용하며 학습 데이터 세트를 나누는 기법으로 복원추출 방법이다.
- 페이스팅, Pasting : 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법으로 비복원추출 방법이다.
- 랜덤 서브스페이스 : 다차원 독립변수 중 일부 차원을 선택, 학습 데이터는 모두 사용하고 특성은 샘플링하는 방식
- 랜덤 패치 : 학습 데이터와 독립변수 차원 모두 일부만 랜덤하게 사용, 학습 데이터와 특성 모두 샘플링하는 방식
- 랜덤 포레스트
- 부스팅 방법론
- 에이다 부스트, AdaBoost : 잘 분류된 샘플의 가중치는 낮추고 잘못 분류한 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 기법
- 그래디언트 부스트, Gradient Boost : 잘못 분류된 샘플의 에러(Error)를 최적화하는 기법
반응형