일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- BeautifulSoup
- OpenGL
- 빅데이터분석기사필기
- 크롤링
- 청청구역
- 보라카이
- 호주
- 사각형변형
- 정말
- 오류
- 예쁜곳
- 파이썬
- 가고싶은데
- 방향변경
- 갈자신이없다
- 너무오래됐다
- 데이터전처리
- 멜버른
- 언제또가보지
- 빅데이터분석기사후기
- 애니메이션
- 필기후기
- selenium
- 빅데이터분석기사
- 마우스클릭
- 유니코드 제거
- 색상변경
Archives
- Today
- Total
wisdiom 아니고 wisdom
15. 데이터 탐색 본문
1️⃣ 탐색적 데이터 분석 (EDA, Exploratory Data Analysis)
📍 EDA의 4가지 주제(특징) ✔
- 저항성(Resistance) : 수집된 자료에 오류점, 이상값이 있을 떄에도 영향을 적게 받는 성질
- 저항성을 높이는 방법 : (1) 산술평균 사용, (2) 이상치 제거
- 잔차 해석 : 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
- 자료 재표현 : 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그 변환, 제곱근 변환, 역수 변환 등)로 바꾸는 것 → 표준화
- 현시성
2️⃣ 상관관계 분석
두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
(1) 변수 사이의 상관관계의 종류 : 양(+)의 상관관계, 음(-)의 상관관계, 상관관계 없음
(2) 상관관계 표현 방법
- 산점도(Scatter Plot)
- 공분산(Covariance) : 2개의 변수 사이의 상관 정도를 나타내는 값, 방향성 파악 가능
- 상관계수(Correlation Coefficient) : 두 변수 사이의 연관성을 수치적으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법, -1 ≤ r ≤ 1
- 상관관계의 한계
- (1) 수학적 관계일 뿐 속성의 관계가 아니다. (관계성 O, 속성 X)
- (2) 선형관계의 측도 (곡선 X)
- (3) 자료분석 초기에만 활용한다.
- 상관관계의 한계
(3) 변수의 속성에 따른 상관성 ✔
- 수치적 데이터 - 피어슨 상관계수
- 순서적 데이터 - 스피어만 순위상관분석
- 명목적 데이터 - 카이제곱 검정
3️⃣ 기초통계량
(1) 중심 경향성의 통계량 (대표값) : 중심위치
- 평균(Mean)
- (장점) 정보의 활용, (단점) 이상값에 취약
- 중앙값(중위수, Median)
- (장점) 이상값에 강함, (단점) 정보의 손실
- 절사평균 :평균과 중위수를 절충한 값 → 최고, 최저점을 빼고 평균을 낸 값
- 최빈값(Mode)
(2) 산포도 : 퍼진 정도
- 범위(Range) = 최댓값 - 최솟값
- 분산
- 표준편차
- 변동계수(CV, Coefficient of Variation) : 측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용
- 표준편차 / 평균
- 사분위 수 범위(IQR) : 자료들의 중간 50%에 포함되는 자료의 산포도
- 제 3사분위 수(Q3) - 제 1사분위 수(Q1)
(3) 데이터의 분포를 나타내는 통계량
- 왜도(Skewness, 비대칭도)
- 왼쪽 편도 : 왜도 < 0, 평균 < 중위수 < 최빈값
- 정규 분포 : 왜도 = 0, 평균 = 중위수 = 최빈값
- 오른쪽 편도 : 왜도 > 0, 최빈값 < 중위수 < 평균
- 첨도(Kurtosis)
- 첨도 > 0, 첨용 : 뾰족
- 첨도 = 0 : 정규 분포
- 첨도 < 0, 평용 : 납작
4️⃣ 시각적 데이터 탐색
(1) 히스토그램, Historgram
자료를 일정한 구간으로 나누고 그 구간 안에서 나타나는 데이터의 빈도수를 나타내는 그래프
📍 특징
- 가로축은 수치형 데이터이다.
- 히스토그램의 막대는 서로 붙어 있다.
- 히스토그램의 막대 넓이는 일정하다.
- 빈도수를 막대의 높이로 표현한다.
- 히스토그램 전체 영역은 데이터 개수와 동일하다
📍 장점
- 연속형 자료의 확률분포의 모양을 한눈에 파악할 수 있다.
📍 종류
- 빈도 히스토그램 : 자료값에 대한 빈도를 나타내며 자료의 분포 확인 가능
- 누적 히스토그램 : 자료값에 대한 누적 빈도를 나타내고, 항상 증가하는 형태
(2) 막대형 그래프, Barplot
여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프
📍 특징
- 가로축(x축)은 수치형 데이터가 아니어도 된다.
- 막대형 그래프의 막대는 서로 떨어져 있다.
- 막대형 그래프의 막대 넓이는 같지 않을 수 있다.
(3) 박스 플롯, Boxplot ✔
많은 데이터를 그림을 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 또한 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법
📍 박스 플롯의 구성요소
- 하위 경계
- 최솟값
- 제 1사분위 수
- 제 2사분위 수(중위수, Median)
- 제 3사분위 수
- 최댓값
- 상위 경계
- 수염(Whiskers)
- 이상값 : 1.5 * IQR > x or x > 1.5 * IQR
(4) 산점도, Scatter ✔
- 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
- 2개의 연속형 변수 간의 관계를 보기 위하여 사용터 분석 (EDA, Exploratory Data Analysis)
📍 산점도의 특징
- 변수들 사이의 관계를 왜곡시키는 이상치 확인 시 유용
- 데이터 간의 상관관계가 있는지 시각적으로 확인 가능
- 데이터의 분산 정도를 알려준다. 단, 단순관계만 보여줄 뿐 원인을 설명하지는 않는다.
반응형
'👩🎓✍ > BigData 분석기사' 카테고리의 다른 글
텍스트(Text) 탐색 (0) | 2021.03.11 |
---|---|
16. 고급 데이터 탐색 (0) | 2021.03.11 |
14. 변수(Feature) 선택 (0) | 2021.03.10 |
13. 데이터 전처리 ⭐ (0) | 2021.03.10 |
NoSQL (0) | 2021.03.08 |
Comments