일/Data Mining

Information Theory : Entropy, KL-divergence (Cross Entorpy), Mutual Information, RIG (relative information gain)

LEEHK 2013. 8. 22. 20:48

 

 

 12년 10월 오박사님 강의, 13년 8월 손JH님의 인수인계 교육 듣고 필기했던 내용을 정리했다.

 그 동안 대략적으로 알고 있었던 내용을, 다른 두 명의 시점에서 들으니, 더 명료하게 와 닿아서 정말 좋다.

 이제 이걸 좀 더 활용해서 일에 써먹어야지 ㅎㅎㅎ

 

 

 < 정보이론 (Information Theory) 중 3가지 꼭지 >

 

 1. Entory

: 데이터를 보내는데 필요한 정보량이다.

: 케이스가 많으면 많을수록 값이 커진다.

: 아는 게 없으면 (동전 던지기의 경우 반반의 확률이면) 엔트로피는 커진다.

: 결과가 하나 밖에 없으면 엔트로피는 0 이다.

* Decision Tree 알고리즘 중 하나인 C4.5에서 분기 조건으로 쓰는 그 놈이다.

 

 

 

 

2. KL-divergence

: 2개의 Distribution을 비교하는 것.

: Pi를 추정하기 위해 Qi를 썼을 때 오는 정보의 로스.

: Cross Entropy 와 Entropy의 차이.

- Cross Entropy : Qi로 Pi를 추리하는 것. True Distribution 인 Pi를 모르니, 임의로 정한 확률 Qi로 보낼 비트를 결정한다.

: Pi와 Qi가 같다면 그 값은 0이 된다.

 

 

 

 

3. Mutual Information

: 연관규칙의 Life와 같은 개념. 링크 참고.

: Feature A를 알면 얼마나 보내는 비트 수를 줄일 수 있나.

: 엔트로피가 줄어드는 것.

: 조건부 확률의 개념. MI(A,B) ^= MI(B,A)

: A와 B가 독립이면 MI=0, A와 B가 같으면 MI=H(x)=Entropy

 




4. RIG(relative information gain)


RIG = ( H(p_bar) - CE ) / H(p_bar)

구간별 평균 CTR 엔트로피와실제와 예측값의 cross entropy 비교.

1 가까울수록 좋음.



* p_bar : average CTR

* CE : H(pt, pt_hat). 실제 CTR 예측 CTR  과의 cross entropy


* H(p_bar) : 평균 CTR 엔트로피.