일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 빅데이터분석기사
- OpenGL
- 마우스클릭
- 정말
- 유니코드 제거
- 청청구역
- 색상변경
- 오류
- 빅데이터분석기사후기
- BeautifulSoup
- 사각형변형
- 필기후기
- 데이터전처리
- 빅데이터분석기사필기
- 예쁜곳
- 방향변경
- 호주
- 가고싶은데
- 크롤링
- 파이썬
- 애니메이션
- 보라카이
- 너무오래됐다
- 갈자신이없다
- selenium
- 언제또가보지
- 멜버른
Archives
- Today
- Total
wisdiom 아니고 wisdom
34. 분석 모형 개선 본문
(1) 과대 적합 방지
과대 적합은 제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우에 발생한다.
- 데이터 증강
- 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다.
- 모델의 복잡도 감소
- 은닉층의 수 감소
- 모델의 수용력 낮추기
- 가중치 규제 적용
- L1 규제 : λ|ω}
- L2 규제 : ½λω²
- 드롭아웃(Dropout) : 학습 과정에서 신경망 일부를 사용하지 않는 방법
- 초기 드롭아웃
- 공간적 드롭아웃
- 시간적 드롭아웃
(2) 매개변수 최적화
학습 모델과 실제 레이블과의 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다.
- 확률적 경사 하강법, SGD
- 기울기가 줄어드는 최적점 근처에서 느리게 진행한다.
- 탐색 경로가 지그재그로 크게 변한다.
- 모멘텀(Momentum)
- 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘
- 공이 구르는 듯한 모습
- AdaGrad
- 손실 함수의 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식
- Adam
- 모멘텀 방식과 AdaGrad 방식의 장점을 합친 알고리즘
(3) 분석 모형 융합
- 취합(Aggregation) 방법론
- 다수결
- 배깅, Bagging : 학습 데이터의 중복을 허용하며 학습 데이터 세트를 나누는 기법으로 복원추출 방법이다.
- 페이스팅, Pasting : 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법으로 비복원추출 방법이다.
- 랜덤 서브스페이스 : 다차원 독립변수 중 일부 차원을 선택, 학습 데이터는 모두 사용하고 특성은 샘플링하는 방식
- 랜덤 패치 : 학습 데이터와 독립변수 차원 모두 일부만 랜덤하게 사용, 학습 데이터와 특성 모두 샘플링하는 방식
- 랜덤 포레스트
- 부스팅 방법론
- 에이다 부스트, AdaBoost : 잘 분류된 샘플의 가중치는 낮추고 잘못 분류한 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 기법
- 그래디언트 부스트, Gradient Boost : 잘못 분류된 샘플의 에러(Error)를 최적화하는 기법
반응형
'👩🎓✍ > BigData 분석기사' 카테고리의 다른 글
제2회 빅데이터 분석기사 필기 후기 (0) | 2021.05.25 |
---|---|
35. 분석 결과 해석 및 활용 (0) | 2021.03.30 |
33. 교차 검증, Cross Validation (0) | 2021.03.24 |
32. 비모수 통계 (0) | 2021.03.20 |
31. 앙상블 분석 (0) | 2021.03.20 |
Comments