👩‍🎓✍/BigData 분석기사

33. 교차 검증, Cross Validation

글로랴 2021. 3. 24. 23:41

교차 검증, Cross Validation

모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다.

 

  • 홀드 아웃 교차 검증 : 전체 데이터를 *비복원추출 방법을 이용하여 랜덤하게 학습 데이터와 평가 데이터로 나눠 검증하는 기법
  • 다중 교차 검증
    • 랜덤 서브샘플링 : 모집답으로부터 조사의 대상이 되는 표본을 무작위로 추출하는 기법
    • K-Fold Cross Validation : 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그 중 1개 집합을 평가 데이터로 나머지 (K-1)개 집합을 학습 데이터로 선정하여 분석 모형을 평가하는 기법
    • LOOCV : 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 (N-1)개는 학습 데이터로 사용하는 과정을 N번 반복하는 교차 검증 기법
    • LpOCV : LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하며 nCp 만큼 교차 검증이 반복되므로 계산 시간에 부담이 매우 크다.
    • RLT : 랜덤하게 비복원추출하는 방법
    • 부트스트랩 : 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법
      • *무작위 복원추출 방법으로 전체 데이터에서 중복을 허용 샘플에 한 번도 선택되지 않는 원 데이터는 약 36.8%이다. TEST(평가)에 사용됨
반응형