12년 10월 오박사님 강의, 13년 8월 손JH님의 인수인계 교육 듣고 필기했던 내용을 정리했다.
그 동안 대략적으로 알고 있었던 내용을, 다른 두 명의 시점에서 들으니, 더 명료하게 와 닿아서 정말 좋다.
이제 이걸 좀 더 활용해서 일에 써먹어야지 ㅎㅎㅎ
< 정보이론 (Information Theory) 중 3가지 꼭지 >
1. Entory
: 데이터를 보내는데 필요한 정보량이다.
: 케이스가 많으면 많을수록 값이 커진다.
: 아는 게 없으면 (동전 던지기의 경우 반반의 확률이면) 엔트로피는 커진다.
: 결과가 하나 밖에 없으면 엔트로피는 0 이다.
* Decision Tree 알고리즘 중 하나인 C4.5에서 분기 조건으로 쓰는 그 놈이다.
2. KL-divergence
: 2개의 Distribution을 비교하는 것.
: Pi를 추정하기 위해 Qi를 썼을 때 오는 정보의 로스.
: Cross Entropy 와 Entropy의 차이.
- Cross Entropy : Qi로 Pi를 추리하는 것. True Distribution 인 Pi를 모르니, 임의로 정한 확률 Qi로 보낼 비트를 결정한다.
: Pi와 Qi가 같다면 그 값은 0이 된다.
3. Mutual Information
: 연관규칙의 Life와 같은 개념. 링크 참고.
: Feature A를 알면 얼마나 보내는 비트 수를 줄일 수 있나.
: 엔트로피가 줄어드는 것.
: 조건부 확률의 개념. MI(A,B) ^= MI(B,A)
: A와 B가 독립이면 MI=0, A와 B가 같으면 MI=H(x)=Entropy
4. RIG(relative information gain)
RIG = ( H(p_bar) - CE ) / H(p_bar)
구간별 평균 CTR의 엔트로피와, 실제와 예측값의 cross entropy를 비교.
1에 가까울수록 좋음.
* p_bar : average CTR
* CE : H(pt, pt_hat). 실제 CTR과 예측 CTR 값 과의 cross entropy
* H(p_bar) : 평균 CTR의 엔트로피.
'일 > Data Mining' 카테고리의 다른 글
[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산. (0) | 2014.01.02 |
---|---|
연관분석 lift confidence support (0) | 2013.08.22 |
데이터마이닝 : 문제의 확인. (0) | 2013.07.27 |
데이터마이너가 되려면? (0) | 2013.07.22 |
R에서 Decision Tree 돌리기. (0) | 2013.07.09 |