👩🎓✍/BigData 분석기사
24. 연관성 분석, Association Analysis
글로랴
2021. 3. 18. 14:21
연관성 분석, Association Analysis
데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석기법이다.
(1) 특징
- 목적변수가 없어 분석 방향이나 목적이 없어도 적용이 가능 → 무방향성 데이터마이닝 기법
- 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해하기 쉽다.
- 매우 간단하게 분석을 위한 계산이 가능하다.
- 적절한 세분화로 인한 품목 결정이 잠정이지만 너무 세분화된 품목은 의미없는 결과를 도출한다.
(2) 연관성 분석 주요 용어
- Support, 지지도 : 전체 거래 중 항목 A와 B를 동시에 포함하는 거래 비율
- Ρ(Α∩Β) = A와 B가 동시에 포함된 거래 수 / 전체 거래 수
- Confidence, 신뢰도 : A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
- P(A∩B) / P(A) = 지지도 / P(A) = A와 B가 동시에 포함된 거래 수 / A를 포함하는 거래 수
- Lift, 향상도 : 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
- P(B | A) / P(B) = 신뢰도 / P(B) = P(A∩B) / (P(A) × P(B))
- ↓ 1이 기준이 되며, 해당 규칙은 결과를 예측하는 있어 우수하다.
향상도 | 설명 | 예시 |
향상도 = 1 | 서로 독립적인 관계 | 과자와 후추 |
향상도 > 1 | 양(+)의 상관관계 | 빵과 버터 |
향상도 < 1 | 음(-)의 상관관계 | 설사약과 변비약 |
(3) Apriori 알고리즘
- 데이터들의 발생빈도를 기반으로 연관규칙을 도출하는 알고리즘
- 분석대상 항목 대상을 최소화 하여 연관성 도출을 효율화한 연관분석 알고리즘
- [Apriori 알고리즘 규칙]
- 한 항목집합이 빈발하면, 이 항목집합의 모든 부분집합은 빈발항목 집합 → 한 항목집합이 빈발하지 않다면, 이 항목집합을 포함하는 모든 집합은 비 빈발항목 집합
- [Apriori 알고리즘 계산]
- 최소 지지도 경계 값을 정함
- Database에서 후보 항목 집합을 생성
- 후보 항목 집합에서 최소 지지도 경계 값을 넘는 빈발 항목 집합을 찾아냄
반응형