일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 빅데이터분석기사후기
- 방향변경
- 유니코드 제거
- 파이썬
- 오류
- 너무오래됐다
- 청청구역
- 예쁜곳
- 필기후기
- 언제또가보지
- 호주
- 가고싶은데
- 크롤링
- 정말
- 갈자신이없다
- BeautifulSoup
- 보라카이
- 애니메이션
- 멜버른
- 사각형변형
- OpenGL
- 빅데이터분석기사필기
- 마우스클릭
- selenium
- 데이터전처리
- 빅데이터분석기사
- 색상변경
Archives
- Today
- Total
wisdiom 아니고 wisdom
13. 데이터 전처리 ⭐ 본문
1️⃣ 데이터 정제
결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
(1) 데이터 오류 원인 ✔
- 결측값, Missing Value : 필수적인 데이터가 입력되지 않고 누락된 값
- 노이즈, Noise : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
- 이상값, Outlier : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
(2) 데이터 정제 기법 ✔
- 변환, Transform : 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
- 파싱, Parsing : 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
- 보강, Enhancement : 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업
2️⃣ 데이터 세분화 (Data Segmentation)
데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스이다.
(1) 데이터 세분화 방법 ✔
- 계층적 방법
- 응집분석법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
- 분할분석법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
- 비계층적 방법
- 인공신경망 모델
- K-평균 군집화
3️⃣ 데이터 결측값 (Data Missing Value)
입력이 누락된 값으로 NA, 999999, NULL 등으로 표기
(1) 데이터 결측값 종류
- 완전 무작위 결측 (MCAR) : 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
- 무작위 결측 (MAR) : 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
- 비 무작위 결측 (MNAR) : 누락된 값(변수의 결과)이 다른 변수와 연관이 있는 경우
(2) 데이터 결측값 처리 절차
결측값 식별 (Identify missing value) → 결측값 부호화 (Encode missing value) → 결측값 대체 (Impute missing value)
(3) 데이터 결측값 처리 방법
📍 단순 대치법 : 결측값을 그럴듯한 값으로 대체하는 통계적 기법
- 완전 분석법
- 평균 대치법
- 비 조건부 평균 대치법
- 조건부 평균 대치법
- 단순 확률 대치법
- 핫덱 대체 : 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법
- 콜드덱 대체 : 대체할 자료를 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
- 혼합 방법 : 몇 가지 다른 방법을 혼합하는 방법
📍 다중 대치법 : 단순 대치법을 한 번하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
- 적용방식 : 대치 → 분석 → 결합
4️⃣ 데이터 이상값 (Data Outlier)
관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
(1) 데이터 이상값 발생 원인 ✔
- 데이터 입력 오류
- 측정 오류
- 실험 오류
- 고의적인 이상값
- 표본추출 에러
(2) 데이터 이상값 검출 방법
- 통계 기법 기반 ✔
- ESD : 평균으로부터 3 표준편차 떨어진 값
- 기하평균 활용한 방법 : 기하평균으로부터 2.5 표준편차 떨어진 값
- 사분위 수를 이용한 방법 : 제 1사분위, 제 3사분위를 기준으로 IQR의 1.5배 이상 떨어진 값
- 표준화 점수(Z-Score)를 활용한 이상값 검출
- 통계적 가설 검정
- 딕슨, Q-검정
- 그럽스, T-검정
- 카이제곱 검정
- 시각화 기반
- 확률 밀도 함수
- 히스토그램
- 시계열 차트
- 군집화 기반
반응형
'👩🎓✍ > BigData 분석기사' 카테고리의 다른 글
15. 데이터 탐색 (0) | 2021.03.11 |
---|---|
14. 변수(Feature) 선택 (0) | 2021.03.10 |
NoSQL (0) | 2021.03.08 |
12. 데이터 저장 (0) | 2021.03.08 |
11. 데이터 적재 (0) | 2021.03.08 |
Comments