👩‍🎓✍/BigData 분석기사

24. 연관성 분석, Association Analysis

글로랴 2021. 3. 18. 14:21

연관성 분석, Association Analysis

데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석기법이다.

 

(1) 특징

  • 목적변수가 없어 분석 방향이나 목적이 없어도 적용이 가능 → 무방향성 데이터마이닝 기법
  • 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해하기 쉽다.
  • 매우 간단하게 분석을 위한 계산이 가능하다.
  • 적절한 세분화로 인한 품목 결정이 잠정이지만 너무 세분화된 품목은 의미없는 결과를 도출한다.

 

(2) 연관성 분석 주요 용어

  • Support, 지지도 : 전체 거래 중 항목 A와 B를 동시에  포함하는 거래 비율
    • Ρ(Α∩Β) = A와 B가 동시에 포함된 거래 수 / 전체 거래 수
  • Confidence, 신뢰도 : A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
    • P(A∩B) / P(A) = 지지도 / P(A) = A와 B가 동시에 포함된 거래 수 / A를 포함하는 거래 수
  • Lift, 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
    • P(B | A) / P(B) = 신뢰도 / P(B) = P(A∩B) / (P(A) × P(B))
    • ↓ 1이 기준이 되며, 해당 규칙은 결과를 예측하는 있어 우수하다.
향상도 설명 예시
향상도 = 1 서로 독립적인 관계 과자와 후추
향상도 > 1 양(+)의 상관관계 빵과 버터
향상도 < 1 음(-)의 상관관계 설사약과 변비약

 

 

(3) Apriori 알고리즘

  • 데이터들의 발생빈도를 기반으로 연관규칙을 도출하는 알고리즘
  • 분석대상 항목 대상을 최소화 하여 연관성 도출을 효율화한 연관분석 알고리즘
  • [Apriori 알고리즘 규칙]
    • 한 항목집합이 빈발하면, 이 항목집합의 모든 부분집합은 빈발항목 집합 → 한 항목집합이 빈발하지 않다면, 이 항목집합을 포함하는 모든 집합은 비 빈발항목 집합
  • [Apriori 알고리즘 계산]
    • 최소 지지도 경계 값을 정함
    • Database에서 후보 항목 집합을 생성
    • 후보 항목 집합에서 최소 지지도 경계 값을 넘는 빈발 항목 집합을 찾아냄
반응형