wisdiom 아니고 wisdom

25. 군집 분석, Cluster Analysis 본문

👩‍🎓✍/BigData 분석기사

25. 군집 분석, Cluster Analysis

글로랴 2021. 3. 18. 14:44

군집 분석, Cluster Analysis

관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법

 

(1) 군집 분석 결과 해석

군집의 결과는 계통도 또는 *덴드로그램의 형태로 주어지며 각 개체는 하나의 군집에만 속한다.

*덴드로그램 : 군집의 개체들이 결합되는 순서를 나타내는 트리 형태의 구조

 

(2) 군집 간의 거리 계산

  • 연속형 변수 거리
    • 수학적 거리
      • 민코프스키 거리
      • 맨하튼 거리 : m=1, 두 점 간 차의 절대값을 합한 값
      • 유클리드 거리 : m=2, 두 점 간 차의 제곱하여 모두 더한 값
    • 통계적 거리
      • 표준화 거리
      • 마할라노비스 거리
  • 명목형 변수 거리
    • 단순 일치 계수
    • 자카드(Jaccard) 계수 : 두 집합 사이의 유사도를 측정
      • J(A, B) = |A∩B| / |A∪B|

 

(3) 군집 간의 거리측정 방법

  • 연결법 : 거리의 최솟값 측정
  • 연결법 : 거리의 최댓값 측정
  • 심 연결법 : 두 군집의 중심 간의 거리 측정
  • 균 연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집화
  • 드 연결법 : 군집 내부의 오차 제곱합에 기초하여 군집 수행

 

(4) 군집 분석 종류

  • ⭐ K-평균 군집 : 주어진 데이터를 K개의 군집으로 묶는 알고리즘
    • K개 객체 선택 - 할당 - 중심 갱신 - 반복
  • 혼합 분포 군집 : 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 자료로부터 모수와 가중치를 추정하는 방법
    • EM(Expectation-Maximization) 알고리즘 : 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
  •  SOM, 자기 조직화 지도 : 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망으로 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘. 입력층과 경쟁층으로 구성된다.
반응형

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

27. 다변량 분석  (0) 2021.03.20
26. 범주형 자료 분석  (0) 2021.03.20
24. 연관성 분석, Association Analysis  (0) 2021.03.18
23. 서포트 벡터 머신, SVM  (0) 2021.03.16
22. 인공신경망, ANN  (0) 2021.03.16
Comments