wisdiom 아니고 wisdom

15. 데이터 탐색 본문

👩‍🎓✍/BigData 분석기사

15. 데이터 탐색

글로랴 2021. 3. 11. 21:38

1️⃣ 탐색적 데이터 분석 (EDA, Exploratory Data Analysis)

 

📍 EDA의 4가지 주제(특징)

  • 저항성(Resistance) : 수집된 자료에 오류점, 이상값이 있을 떄에도 영향을 적게 받는 성질
    • 저항성을 높이는 방법 : (1) 산술평균 사용, (2) 이상치 제거
  • 잔차 해석 : 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
  • 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그 변환, 제곱근 변환, 역수 변환 등)로 바꾸는 것 → 표준화
  • 현시성

 

2️⃣ 상관관계 분석

두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법

 

(1) 변수 사이의 상관관계의 종류 : 양(+)의 상관관계, 음(-)의 상관관계, 상관관계 없음

 

(2) 상관관계 표현 방법

  • 산점도(Scatter Plot)
  • 공분산(Covariance) : 2개의 변수 사이의 상관 정도를 나타내는 값, 방향성 파악 가능
  • 상관계수(Correlation Coefficient) : 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법, -1 ≤ r ≤ 1
    • 상관관계의 한계
      • (1) 수학적 관계일 뿐 속성의 관계가 아니다. (관계성 O, 속성 X)
      • (2) 선형관계의 측도 (곡선 X)
      • (3) 자료분석 초기에만 활용한다.

(3) 변수의 속성에 따른 상관성

  • 수치적 데이터 - 피어슨 상관계수
  • 순서적 데이터 - 스피어만 순위상관분석
  • 명목적 데이터 - 카이제곱 검정

 

3️⃣ 기초통계량

(1) 중심 경향성의 통계량 (대표값) : 중심위치

  • 평균(Mean)
    • (장점) 정보의 활용, (단점) 이상값에 취약
  • 중앙값(중위수, Median)
    • (장점) 이상값에 강함, (단점) 정보의 손실
  • 절사평균 :평균과 중위수를 절충한 값 → 최고, 최저점을 빼고 평균을 낸 값
  • 최빈값(Mode)

(2) 산포도 : 퍼진 정도

  • 범위(Range) = 최댓값 - 최솟값
  • 분산
  • 표준편차
  • 변동계수(CV, Coefficient of Variation) : 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용
    • 표준편차 / 평균
  • 사분위 수 범위(IQR) : 자료들의 중간 50%에 포함되는 자료의 산포도
    • 제 3사분위 수(Q3) - 제 1사분위 수(Q1)

(3) 데이터의 분포를 나타내는 통계량

  • 왜도(Skewness, 비대칭도)
    • 왼쪽 편도 : 왜도 < 0, 평균 < 중위수 < 최빈값
    • 정규 분포 : 왜도 = 0, 평균 = 중위수 = 최빈값
    • 오른쪽 편도 : 왜도 > 0, 최빈값 < 중위수 < 평균
  • 첨도(Kurtosis) 
    • 첨도 > 0, 첨용 : 뾰족
    • 첨도 = 0 : 정규 분포
    • 첨도 < 0, 평용 : 납작

 

4️⃣ 시각적 데이터 탐색

(1) 히스토그램, Historgram

자료를 일정한 구간으로 나누고 그 구간 안에서 나타나는 데이터의 빈도수를 나타내는 그래프

 

📍 특징

  • 가로축은 수치형 데이터이다.
  • 히스토그램의 막대는 서로 붙어 있다.
  • 히스토그램의 막대 넓이는 일정하다.
  • 빈도수를 막대의 높이로 표현한다.
  • 히스토그램 전체 영역은 데이터 개수와 동일하다

📍 장점

  • 연속형 자료의 확률분포의 모양을 한눈에 파악할 수 있다.

📍 종류

  • 빈도 히스토그램 : 자료값에 대한 빈도를 나타내며 자료의 분포 확인 가능
  • 누적 히스토그램 : 자료값에 대한 누적 빈도를 나타내고, 항상 증가하는 형태

 

(2) 막대형 그래프, Barplot

여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프

 

📍 특징

  • 가로축(x축)은 수치형 데이터가 아니어도 된다.
  • 막대형 그래프의 막대는 서로 떨어져 있다.
  • 막대형 그래프의 막대 넓이는 같지 않을 수 있다.

 

(3) 박스 플롯, Boxplot

많은 데이터를 그림을 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 또한 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법

 

📍 박스 플롯의 구성요소

  • 하위 경계
  • 최솟값
  • 제 1사분위 수
  • 제 2사분위 수(중위수, Median)
  • 제 3사분위 수
  • 최댓값
  • 상위 경계
  • 수염(Whiskers)
  • 이상값 : 1.5 * IQR > x or x > 1.5 * IQR 

 

(4) 산점도, Scatter

  • 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
  • 2개의 연속형 변수 간의 관계를 보기 위하여 사용터 분석 (EDA, Exploratory Data Analysis)

📍 산점도의 특징

  • 변수들 사이의 관계를 왜곡시키는 이상치 확인 시 유용
  • 데이터 간의 상관관계가 있는지 시각적으로 확인 가능
  • 데이터의 분산 정도를 알려준다. 단, 단순관계만 보여줄 뿐 원인을 설명하지는 않는다.
반응형

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

텍스트(Text) 탐색  (0) 2021.03.11
16. 고급 데이터 탐색  (0) 2021.03.11
14. 변수(Feature) 선택  (0) 2021.03.10
13. 데이터 전처리 ⭐  (0) 2021.03.10
NoSQL  (0) 2021.03.08
Comments