👩‍🎓✍/BigData 분석기사

34. 분석 모형 개선

글로랴 2021. 3. 30. 13:31

(1) 과대 적합 방지

과대 적합은 제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생한다.

 

  • 데이터 증강
    • 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다.
  • 모델의 복잡도 감소
    • 은닉층의 수 감소
    • 모델의 수용력 낮추기
  • 가중치 규제 적용
    • L1 규제 : λ|ω}
    • L2 규제 : ½λω²
  • 드롭아웃(Dropout) : 학습 과정에서 신경망 일부를 사용하지 않는 방법
    • 초기 드롭아웃
    • 공간적 드롭아웃
    • 시간적 드롭아웃

 

 

(2) 매개변수 최적화

학습 모델과 실제 레이블과의 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다.

 

  • 확률적 경사 하강법, SGD
    • 기울기가 줄어드는 최적점 근처에서 느리게 진행한다.
    • 탐색 경로가 지그재그로 크게 변한다.
  • 모멘텀(Momentum)
    • 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘
    • 공이 구르는 듯한 모습
  • AdaGrad
    • 손실 함수의 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식
  • Adam
    • 모멘텀 방식과 AdaGrad 방식의 장점을 합친 알고리즘

 

 

(3) 분석 모형 융합

  • 취합(Aggregation) 방법론
    • 다수결
    • 배깅, Bagging : 학습 데이터의 중복을 허용하며 학습 데이터 세트를 나누는 기법으로 복원추출 방법이다.
    • 페이스팅, Pasting : 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법으로 비복원추출 방법이다.
    • 랜덤 서브스페이스 : 다차원 독립변수 중 일부 차원을 선택, 학습 데이터는 모두 사용하고 특성은 샘플링하는 방식
    • 랜덤 패치 : 학습 데이터와 독립변수 차원 모두 일부만 랜덤하게 사용, 학습 데이터와 특성 모두 샘플링하는 방식
    • 랜덤 포레스트
  • 부스팅 방법론
    • 에이다 부스트, AdaBoost : 잘 분류된 샘플의 가중치는 낮추고 잘못 분류한 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 기법
    • 그래디언트 부스트, Gradient Boost : 잘못 분류된 샘플의 에러(Error)를 최적화하는 기법
반응형