글로랴 2021. 3. 20. 18:11

다변량 분석

 

(1) 상관분석

  • 피어슨의 상관계수 : 두 변수 간 선형관계의 크기를 측정하는 값
    • 모 상관계수 : 모집단에 적용되는 경우 p로 표시
      • -1 ≤ p ≤ 1 이고, X와 Y가 독립이면 p=0 이다.
    • 표본 상관계수 : 모집단 피어슨의 상관계수를 추정하기 위해 표본 상관계수 r을 사용
  • 스피어만의 상관계수 : 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값

 

(2) 다차원 척도법(MDS)

개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

  • 개체들의 거리는 유클리드 거리행렬을 이용한다.
  • 스트레스 값을 이용해 관측 대상들의 적합도 수준을 나타낸다.
  • 스트레스 값은 0에 가까울수록 적합도 수준이 완벽하고 1에 가까울수록 나쁘다.

 

(3) 주성분 분석(PCA)

상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법

 

  • 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
  • 누적 기여율이 85% 이상이면 주성분의 수로 결정할 수 있다.
  • 차원 감소폭의 결정은 *스크린 산점도, 전체 변이의 공헌도, 평균 교윳값 등을 활용하는 방법이 있다.

*스크린 산점도(Screen Plot) : x축에 주성분, y축에 각 주성분의 분선을 표현한 그래프(스크린 산점도의 기울기가 완만해지기 직전까지를 주성분 수로 결정)

반응형