wisdiom 아니고 wisdom

24. 연관성 분석, Association Analysis 본문

👩‍🎓✍/BigData 분석기사

24. 연관성 분석, Association Analysis

글로랴 2021. 3. 18. 14:21

연관성 분석, Association Analysis

데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석기법이다.

 

(1) 특징

  • 목적변수가 없어 분석 방향이나 목적이 없어도 적용이 가능 → 무방향성 데이터마이닝 기법
  • 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해하기 쉽다.
  • 매우 간단하게 분석을 위한 계산이 가능하다.
  • 적절한 세분화로 인한 품목 결정이 잠정이지만 너무 세분화된 품목은 의미없는 결과를 도출한다.

 

(2) 연관성 분석 주요 용어

  • Support, 지지도 : 전체 거래 중 항목 A와 B를 동시에  포함하는 거래 비율
    • Ρ(Α∩Β) = A와 B가 동시에 포함된 거래 수 / 전체 거래 수
  • Confidence, 신뢰도 : A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
    • P(A∩B) / P(A) = 지지도 / P(A) = A와 B가 동시에 포함된 거래 수 / A를 포함하는 거래 수
  • Lift, 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
    • P(B | A) / P(B) = 신뢰도 / P(B) = P(A∩B) / (P(A) × P(B))
    • ↓ 1이 기준이 되며, 해당 규칙은 결과를 예측하는 있어 우수하다.
향상도 설명 예시
향상도 = 1 서로 독립적인 관계 과자와 후추
향상도 > 1 양(+)의 상관관계 빵과 버터
향상도 < 1 음(-)의 상관관계 설사약과 변비약

 

 

(3) Apriori 알고리즘

  • 데이터들의 발생빈도를 기반으로 연관규칙을 도출하는 알고리즘
  • 분석대상 항목 대상을 최소화 하여 연관성 도출을 효율화한 연관분석 알고리즘
  • [Apriori 알고리즘 규칙]
    • 한 항목집합이 빈발하면, 이 항목집합의 모든 부분집합은 빈발항목 집합 → 한 항목집합이 빈발하지 않다면, 이 항목집합을 포함하는 모든 집합은 비 빈발항목 집합
  • [Apriori 알고리즘 계산]
    • 최소 지지도 경계 값을 정함
    • Database에서 후보 항목 집합을 생성
    • 후보 항목 집합에서 최소 지지도 경계 값을 넘는 빈발 항목 집합을 찾아냄
반응형

'👩‍🎓✍ > BigData 분석기사' 카테고리의 다른 글

26. 범주형 자료 분석  (0) 2021.03.20
25. 군집 분석, Cluster Analysis  (0) 2021.03.18
23. 서포트 벡터 머신, SVM  (0) 2021.03.16
22. 인공신경망, ANN  (0) 2021.03.16
21. 의사결정 나무, Decision Tree  (0) 2021.03.16
Comments