👩🎓✍/BigData 분석기사
27. 다변량 분석
글로랴
2021. 3. 20. 18:11
다변량 분석
(1) 상관분석
- 피어슨의 상관계수 : 두 변수 간 선형관계의 크기를 측정하는 값
- 모 상관계수 : 모집단에 적용되는 경우 p로 표시
- -1 ≤ p ≤ 1 이고, X와 Y가 독립이면 p=0 이다.
- 표본 상관계수 : 모집단 피어슨의 상관계수를 추정하기 위해 표본 상관계수 r을 사용
- 모 상관계수 : 모집단에 적용되는 경우 p로 표시
- 스피어만의 상관계수 : 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값
(2) 다차원 척도법(MDS)
개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
- 개체들의 거리는 유클리드 거리행렬을 이용한다.
- 스트레스 값을 이용해 관측 대상들의 적합도 수준을 나타낸다.
- 스트레스 값은 0에 가까울수록 적합도 수준이 완벽하고 1에 가까울수록 나쁘다.
(3) 주성분 분석(PCA)
상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 누적 기여율이 85% 이상이면 주성분의 수로 결정할 수 있다.
- 차원 감소폭의 결정은 *스크린 산점도, 전체 변이의 공헌도, 평균 교윳값 등을 활용하는 방법이 있다.
*스크린 산점도(Screen Plot) : x축에 주성분, y축에 각 주성분의 분선을 표현한 그래프(스크린 산점도의 기울기가 완만해지기 직전까지를 주성분 수로 결정)
반응형