👩🎓✍/BigData 분석기사
17. 기술 통계
글로랴
2021. 3. 11. 22:36
기술통계
데이터 분석의 목적으로 수집된 데이터를 확률·통계적으로 정리, 요약하는 기초적인 통계.
(목적) 데이터 분포의 특징을 파악
1️⃣ 기초 통계량
- 평균(Mean)
- 중위수(Median)
- 최빈값(Mode)
- 범위
- 분산
- 표준편차
- 평균의 표준 오차, SEM
- 분포
- 첨도
- 왜도
2️⃣ 상관분석
두개 이상의 변수 간에 존재하는 연관성의 정도(하나의 변수가 다른 변수와 어떤 연관성을 가지고 변화하는가)를 측정하여 분석하는 방법
(1) 분석 방법
- 단순 상관분석 : 두 변수 사이의 연관 정보를 알아내는 분석
- 다중 상관분석 : 셋 또는 그 이상의 변수를 사이의 연관 정도를 분석
(2) 상관분석의 종류
- 수치적 데이터 변수 상관 분석 - 피어슨 상관계수
- 순서적 데이터 변수 상관 분석 - 스피어만 순위상관계수
- 명목적 데이터 변수 상관 분석 - 카이제곱 검정
3️⃣ 회귀분석
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
(1) 회귀분석 모형 종류
- 단순 회귀 모형 : 독립변수와 종속변수가 1개씩이면서 모두 수치형 변수인 경우
- 다중 회귀 모형 : 2개 이상의 독립변수이면서 수치형 혹은 범주형, 1개의 수치형 종속변수
(2) 회귀분석 결과 적합성 평가 전제조건 ✔
- 선형성
- 등분산성
- 독립성
- 비상관성
- 정규성
(3) 독립변수 선택 방법
- 전진 선택법
- 후진 제거법
- 단계적 방법 = 전진 선택법 + 후진 제거법
4️⃣ 분산 분석 (ANOVA, Analysis of Variance)
두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긱 집단 간 분산 비교롤 얻은 F-분포를 이용하여 가설검정을 수행하는 방법
(1) 분산 분석 종류
5️⃣ 표본 추출 ✔
(1) 표본 추출 기법
- 단순 무작위 추출
- 계통 추출
- 층화 추출
- 군집 추출 (=집락 추출)
(2) 자료 측정 척도
- 명목 척도
- 순서 척도
- 구간 척도
- 비율 척도
6️⃣ 확률 분포 ✔
- 이산확률 분포
- 포아송 분포
- 베르누이 분포
- 이항 분포
- 연속확률분포
- 정규분포
- Z-분포
- T-분포 : 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를 때 사용
- 카이제곱 분포
- F-분포 : 독립적인 카이제곱 분포가 있을 때, 두 확률변수의 비
반응형