wisdiom 아니고 wisdom

13. 데이터 전처리 ⭐ 본문

👩‍🎓✍/BigData 분석기사

13. 데이터 전처리 ⭐

글로랴 2021. 3. 10. 20:40

1️⃣ 데이터 정제

결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

 

(1) 데이터 오류 원인

  • 결측값, Missing Value : 필수적인 데이터가 입력되지 않고 누락된 값
  • 노이즈, Noise : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
  • 이상값, Outlier : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

(2) 데이터 정제 기법

  • 변환, Transform : 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
  • 파싱, Parsing : 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
  • 보강, Enhancement : 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업

 

2️⃣ 데이터 세분화 (Data Segmentation)

데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스이다.

 

(1) 데이터 세분화 방법

  • 계층적 방법
    • 응집분석법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
    • 분할분석법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
  • 비계층적 방법
    • 인공신경망 모델
    • K-평균 군집화 

3️⃣ 데이터 결측값 (Data Missing Value)

입력이 누락된 값으로 NA, 999999, NULL 등으로 표기

 

(1) 데이터 결측값 종류

  • 완전 무작위 결측 (MCAR) : 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
  • 무작위 결측 (MAR) : 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
  • 비 무작위 결측 (MNAR) : 누락된 값(변수의 결과)이 다른 변수와 연관이 있는 경우

(2) 데이터 결측값 처리 절차

결측값 별 (Identify missing value) → 결측값 호화 (Encode missing value) → 결측값 체 (Impute missing value)

 

(3) 데이터 결측값 처리 방법

📍 단순 대치법 : 결측값을 그럴듯한 값으로 대체하는 통계적 기법

  • 완전 분석법
  • 평균 대치법
    • 비 조건부 평균 대치법
    • 조건부 평균 대치법
  • 단순 확률 대치법
    • 핫덱 대체 : 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법
    • 콜드덱 대체 : 대체할 자료를 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
    • 혼합 방법 : 몇 가지 다른 방법을 혼합하는 방법

📍 다중 대치법 : 단순 대치법을 한 번하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법

  • 적용방식 : 대치 → 분석 → 결합

 

4️⃣ 데이터 이상값 (Data Outlier)

관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

 

(1) 데이터 이상값 발생 원인

  • 데이터 입력 오류
  • 측정 오류
  • 실험 오류
  • 고의적인 이상값
  • 표본추출 에러

(2) 데이터 이상값 검출 방법

  • 통계 기법 기반
    • ESD : 평균으로부터 3 표준편차 떨어진 값
    • 기하평균 활용한 방법 : 기하평균으로부터 2.5 표준편차 떨어진 값
    • 사분위 수를 이용한 방법 : 제 1사분위, 제 3사분위를 기준으로 IQR의 1.5배 이상 떨어진 값
    • 표준화 점수(Z-Score)를 활용한 이상값 검출 
    • 통계적 가설 검정
      • 딕슨, Q-검정
      • 그럽스, T-검정
      • 카이제곱 검정
  • 시각화 기반
    • 확률 밀도 함수
    • 히스토그램
    • 시계열 차트
  • 군집화 기반 

 

반응형

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

15. 데이터 탐색  (0) 2021.03.11
14. 변수(Feature) 선택  (0) 2021.03.10
NoSQL  (0) 2021.03.08
12. 데이터 저장  (0) 2021.03.08
11. 데이터 적재  (0) 2021.03.08
Comments