👩‍🎓✍/BigData 분석기사

19. 분석 모형 절차

글로랴 2021. 3. 15. 02:09

(1) 분석 모형

  • 통계 기반 분석 모형 선정
    • 술 통계 : 수집된 데이터를 확률·통계적으로 정리, 요약하는 기초적인 통계
    • 관 분석 : 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
    • 귀 분석 : 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 → 인과관계
    • 산 분석(ANOVA, 변량분석) : 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법
    • 성분 분석(PCA)
    • 별 분석
  • 데이터 마이닝 기반 분석 모형 선정
    • 류 모델 : 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습
    • 측 모델 : 귀 분석, 사결정나무, 계열 분석, 공신경망
    • 집화 모델 - 층적 방법(집 분석법, 할 분석법),계층적 방법(공신경망 모델, K-평균 군집화)
    • 관규칙 모델(=장바구니 분석)
  • 머신러닝 기반 분석 모형 선정
    • 도 학습 : 지스틱 회귀, 공신견망 분석, 사결정나무, 포트 백터 머신, 덤 포레스트, 성 분석
      • 레이블된 데이터로 학습
      • 미래 데이터 예측
      • y = f(x)
    • 지도 학습 : 군집화, 차원축소 기법, 연관규칙 분석, *자율학습 인공신경망
      • 레이블 없이 학습
      • 데이터의 숨겨진 구조/특징 발견
      • x ~ p(x), x = f(x)
    • 화 학습
      • 보상 시스템으로 학습
      • 의사결정을 위한 최적의 액션 선택
    • 지도 학습

 

* 자율학습 인공신경망(자기 조직화 지도, SOM)

  • 차원축소와 군집화를 동시에 수행

  • 고차원으로 표현된 데이터를 저차원으로 변환

 

(2) 분선 모형 정의

  • 파라미터(Parameter)
    • 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
    • 사람에 의해 수작업으로 측정되지 않음
    • (예) 인공신경망의 가중치, SVM의 서포트 벡터, 결정계수
  • 하이퍼 파라미터(Hyper-Parameter)
    • 모델 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
    • (예) 신경망 학습에서 학습률(Learning Rate), 의사결정나무에서 나무의 깊이, KNN 및 K-평균 군집화에서의 K의 개수
  • 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합(Under-fitting)이 발생하고, 모델을 너무 복잡하게 선택하면 과대 적합(Over-fitting)이 발생하므로 적절한 모델을 사용한다.

 

 

(3) 분석 모형 구축 절차

 

(4) 분석 도구 선정

  • R : 통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈 소스 프로그래밍 언어
  • Python(파이썬) : C언어 기반의 오픈 소스 프로그래밍 언어

(5) 데이터 분할

  • 데이터를 학습용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 것
  • (목적) 과대 적합의 문제 예방 + 2종 오류인 잘못된 귀무가설을 채택하는 오류 방지
  • 고려사항
    • 학습용 데이터와 검증용 데이터는 학습 과정에서 사용하며 평가용 데이터는 학습 과정에 사용되지 않고 오로지 모형 평가를 위한 과정에만 사용된다.
    • 검증용 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증을 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용한다.
    • 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가용 데이터를 통하여 모형을 평가하며, 이때 사용된 결과가 모형의 평가 지표가 된다.
    • 데이터를 일반적으로 학습용 데이터와 검증용 데이터를 6:4, 8:2 비율로 사용하고, 평가용 데이터와는 7:3으로 분할하지만 절대적인 기준은 아니다.
    • 데이터가 충분하지 않을 경우 학습용 데이터와 평가용 데이터로만 분할하여 사용하기도 한다.
반응형