13. 데이터 전처리 ⭐

Notice

C, C++, STL, openGL 코드작업

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

wisdiom 아니고 wisdom

13. 데이터 전처리 ⭐ 본문

👩‍🎓✍/BigData 분석기사

13. 데이터 전처리 ⭐

글로랴 2021. 3. 10. 20:40

1️⃣ 데이터 정제

결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

(1) 데이터 오류 원인 ✔

결측값, Missing Value : 필수적인 데이터가 입력되지 않고 누락된 값
노이즈, Noise : 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
이상값, Outlier : 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

(2) 데이터 정제 기법 ✔

변환, Transform : 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
파싱, Parsing : 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
보강, Enhancement : 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업

2️⃣ 데이터 세분화 (Data Segmentation)

데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스이다.

(1) 데이터 세분화 방법 ✔

계층적 방법
- 응집분석법 : 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
- 분할분석법 : 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비계층적 방법
- 인공신경망 모델
- K-평균 군집화

3️⃣ 데이터 결측값 (Data Missing Value)

입력이 누락된 값으로 NA, 999999, NULL 등으로 표기

(1) 데이터 결측값 종류

완전 무작위 결측 (MCAR) : 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
무작위 결측 (MAR) : 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
비 무작위 결측 (MNAR) : 누락된 값(변수의 결과)이 다른 변수와 연관이 있는 경우

(2) 데이터 결측값 처리 절차

결측값 식별 (Identify missing value) → 결측값 부호화 (Encode missing value) → 결측값 대체 (Impute missing value)

(3) 데이터 결측값 처리 방법

📍 단순 대치법 : 결측값을 그럴듯한 값으로 대체하는 통계적 기법

완전 분석법
평균 대치법
- 비 조건부 평균 대치법
- 조건부 평균 대치법
단순 확률 대치법
- 핫덱 대체 : 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체하는 방법
- 콜드덱 대체 : 대체할 자료를 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
- 혼합 방법 : 몇 가지 다른 방법을 혼합하는 방법

📍 다중 대치법 : 단순 대치법을 한 번하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법

적용방식 : 대치 → 분석 → 결합

4️⃣ 데이터 이상값 (Data Outlier)

관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

(1) 데이터 이상값 발생 원인 ✔

데이터 입력 오류
측정 오류
실험 오류
고의적인 이상값
표본추출 에러

(2) 데이터 이상값 검출 방법

통계 기법 기반 ✔
- ESD : 평균으로부터 3 표준편차 떨어진 값
- 기하평균 활용한 방법 : 기하평균으로부터 2.5 표준편차 떨어진 값
- 사분위 수를 이용한 방법 : 제 1사분위, 제 3사분위를 기준으로 IQR의 1.5배 이상 떨어진 값
- 표준화 점수(Z-Score)를 활용한 이상값 검출
- 통계적 가설 검정
  - 딕슨, Q-검정
  - 그럽스, T-검정
  - 카이제곱 검정
시각화 기반
- 확률 밀도 함수
- 히스토그램
- 시계열 차트
군집화 기반

저작자표시

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

15. 데이터 탐색 (0)	2021.03.11
14. 변수(Feature) 선택 (0)	2021.03.10
NoSQL (0)	2021.03.08
12. 데이터 저장 (0)	2021.03.08
11. 데이터 적재 (0)	2021.03.08

'👩‍🎓✍/BigData 분석기사' Related Articles

Comments

wisdiom 아니고 wisdom

13. 데이터 전처리 ⭐ 본문

13. 데이터 전처리 ⭐

1️⃣ 데이터 정제

2️⃣ 데이터 세분화 (Data Segmentation)

3️⃣ 데이터 결측값 (Data Missing Value)

4️⃣ 데이터 이상값 (Data Outlier)

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

티스토리툴바