가이드.
- confidence와 support와 lift는 상호 보완적으로 활용해야 한다.
- 이화경 경험적 의견 : lift와 support를 상호 보완적으로 활용하고, confidence는 보조적으로 활용한다.
lift (향상도)
- 쇼핑 상품 관련도에 비유한 설명
- 일반적으로 상품B를 보는 비율보다, 상품A를 본 직후에 B를 보는 비율이 높으면, 둘 사이의 연관성이 높다고 판단한다.
- 두 비율이 같다면, A를 보든말든 B를 보는데는 아무 영향을 안 끼치지 않는다.
- 수식
- LIFT = 상품A를 본 직후에 B를 보는 비율 / 일반적으로 상품B를 보는 비율 = P(B|A) / P(B)
- 해석
- LIFT > 1 : 높으면 높을수록 연관이 깊다.
- LIFT = 1 : 연관이 없다.
- 0< LIFT < 1 : A를 보면 보통 B를 안본다. (LIFT 값은 무조건 0보다 큽니다.)
- 롱테일 페어 높은 값이 나와 섬세한 산출이 가능하나, 메이저한 페어에 대한 고려가 부족하다. support 등으로 보완해줄 필요가 있다.
confidence (신뢰도)
- 쇼핑 상품 관련도에 비유한 설명
- 상품 A를 본 경우 중, A와 B를 동시에 보는 비율
- 수식
- P(B|A) = p(A∩B) / P(A) = A와 B가 동시에 발생한 수 / A가 발생한 수
- 해석
- 클수록 관련도가 높다.
- 단점, A의 규모에 depend한 값이 나온다. 전체적인 분석은 하기 어렵다.
support (지지도)
- 쇼핑 상품 관련도에 비유한 설명
- 전체 중 상품 A와 B를 함께 보는 비율.
- 수식
- P(A∩B) = A와 B가 동시에 발생한 수 / 전체 수
- 해석
- 클수록 관련도가 높다.
- 단점, 롱테일 페어는 찾기 어렵다.
'일 > Data Mining' 카테고리의 다른 글
맥킨지, 차트의 기술 (0) | 2014.02.27 |
---|---|
[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산. (0) | 2014.01.02 |
Information Theory : Entropy, KL-divergence (Cross Entorpy), Mutual Information, RIG (relative information gain) (0) | 2013.08.22 |
데이터마이닝 : 문제의 확인. (0) | 2013.07.27 |
데이터마이너가 되려면? (0) | 2013.07.22 |