< 샘플링 가이드 >
1. 이론적 조언 (2천 개 가량을 추천)
현실의 모집단 대부분이 교과서적인 표준정규분포가 아니기 떄문에 샘플 크기를 가능한 한 크게(1천~2천 이상)하여, 커버리지를 넓히는 것이 좋음.
95% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 400개를 샘플링.
95% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 1000개를 샘플링.
99% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 700개를 샘플링.
99% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 2000개를 샘플링.
2. 이화경 경험적 조언
샘플링은 그룹별(층화)로 하는 것이 좋음.
상/중/하 3개의 그룹을 3:3:4, 혹은 5:4:2 등으로 진행.
각 샘플 그룹당 95%신뢰수준의 추천 샘플수인 300~400개 내외는 확보되도록 하는 것이 좋음.
ex. 총 1천개 샘플에 300 : 300 : 400 정도의 분포를 추천.
샘플의 총 개수는 담당자가 리뷰가능한 리소스를 감안하여 최대로 보는 것이 좋음. (많이 볼 수록 많은 인사이트를 얻을 수 있음)
< 신뢰구간과 표준오차에 따른 샘플 수 계산 >
- 표준정규분포에서
모집단의 신뢰구간은 μ ± Zα * δ
표본의 신뢰구간은 Xbar ± Zα * s / √(n-1)
- Binormial distribution을 Normal distribution으로 approximate 하려면
p=0.5, n>20 이면 가능 (= np>10 & nq>10)
n이 충분히 많고 p가 0.5라고 가정하면
표본의 신뢰구간을 아래와 같이 치환 가능.
p ± Zα * √(pq/n)
* p가 0.5일 때 오차가 가장 커지므로, 이론적으로 가정된 표준정규분포가 아닌 경우를 감안해서, 리스크를 가장 크게 반영하는 의미도 있음.
>> 95% 신뢰구간에서 3% 이내의 표준오차를 가지려면, 약 1000개를 샘플링.
Zα * √(pq/n) < 0.03 를 아래와 같이 변형.
n > (Zα/0.03)^2 * (pq) = (1.96/0.03)^2 * (0.5)^2 = 1067.11
>> 95% 신뢰구간에서 5% 이내의 표준오차를 가지려면, 약 400개를 샘플링.
Zα * √(pq/n) < 0.05 를 아래와 같이 변형.
n > (Zα/0.05)^2 * (pq) = (1.96/0.05)^2 * (0.5)^2 = 384.16
>> 99% 신뢰구간에서 3% 이내의 표준오차를 가지려면, 약 2000개를 샘플링.
Zα * √(pq/n) < 0.03 를 아래와 같이 변형.
n > (Zα/0.03)^2 * (pq) = (2.58/0.03)^2 * (0.5)^2 = 1849
>> 99% 신뢰구간에서 5% 이내의 표준오차를 가지려면, 약 700개를 샘플링.
Zα * √(pq/n) < 0.05 를 아래와 같이 변형.
n > (Zα/0.05)^2 * (pq) = (2.58/0.05)^2 * (0.5)^2 = 665.64
* 표준편차 (standard deviation): 관측치가 얼마나 퍼져있는지 확인. 모집단의 표준편차는 분모가 n, 표본의 표준편차는 분모가 n-1 (자유도)
* 표준오차 (standard error): 표본 대표값의 표준편차. 모집단 대표값에서 표본 대표값이 얼마나 떨어져있는지를 나타냄.
'일 > Data Mining' 카테고리의 다른 글
일의 의미. (0) | 2014.03.07 |
---|---|
맥킨지, 차트의 기술 (0) | 2014.02.27 |
연관분석 lift confidence support (0) | 2013.08.22 |
Information Theory : Entropy, KL-divergence (Cross Entorpy), Mutual Information, RIG (relative information gain) (0) | 2013.08.22 |
데이터마이닝 : 문제의 확인. (0) | 2013.07.27 |