일/Data Mining

연관분석 lift confidence support

LEEHK 2013. 8. 22. 20:49

가이드.

  • confidence와 support와 lift는 상호 보완적으로 활용해야 한다.
  • 이화경 경험적 의견 : lift와 support를 상호 보완적으로 활용하고, confidence는 보조적으로 활용한다.

lift (향상도)

  • 쇼핑 상품 관련도에 비유한 설명
    • 일반적으로 상품B를 보는 비율보다, 상품A를 본 직후에 B를 보는 비율이 높으면, 둘 사이의 연관성이 높다고 판단한다.
    • 두 비율이 같다면, A를 보든말든 B를 보는데는 아무 영향을 안 끼치지 않는다.
  • 수식
    • LIFT = 상품A를 본 직후에 B를 보는 비율 / 일반적으로 상품B를 보는 비율 = P(B|A) / P(B)
  • 해석
    • LIFT > 1 : 높으면 높을수록 연관이 깊다.
    • LIFT = 1 : 연관이 없다.
    • 0< LIFT < 1 : A를 보면 보통 B를 안본다. (LIFT 값은 무조건 0보다 큽니다.)
    • 롱테일 페어 높은 값이 나와 섬세한 산출이 가능하나, 메이저한 페어에 대한 고려가 부족하다. support 등으로 보완해줄 필요가 있다.

confidence (신뢰도)

  • 쇼핑 상품 관련도에 비유한 설명
    • 상품 A를 본 경우 중, A와 B를 동시에 보는 비율
  • 수식
    • P(B|A) = p(A∩B) / P(A) = A와 B가 동시에 발생한 수 / A가 발생한 수
  • 해석
    • 클수록 관련도가 높다.
    • 단점, A의 규모에 depend한 값이 나온다. 전체적인 분석은 하기 어렵다.

support (지지도)

  • 쇼핑 상품 관련도에 비유한 설명
    • 전체 중 상품 A와 B를 함께 보는 비율.
  • 수식
    • P(A∩B) = A와 B가 동시에 발생한 수 / 전체 수
  • 해석
    • 클수록 관련도가 높다.
    • 단점, 롱테일 페어는 찾기 어렵다.