[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산.

일/Data Mining

[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산.

LEEHK 2014. 1. 2. 19:29

< 샘플링 가이드 >

1. 이론적 조언 (2천 개 가량을 추천)

    현실의 모집단 대부분이 교과서적인 표준정규분포가 아니기 떄문에 샘플 크기를 가능한 한 크게(1천~2천 이상)하여, 커버리지를 넓히는 것이 좋음.

    95% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 400개를 샘플링.
    95% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 1000개를 샘플링.
    99% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 700개를 샘플링.
    99% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 2000개를 샘플링.

2. 이화경 경험적 조언
샘플링은 그룹별(층화)로 하는 것이 좋음.
상/중/하 3개의 그룹을 3:3:4, 혹은 5:4:2 등으로 진행.

각 샘플 그룹당 95%신뢰수준의 추천 샘플수인 300~400개 내외는 확보되도록 하는 것이 좋음.

ex. 총 1천개 샘플에 300 : 300 : 400 정도의 분포를 추천.
샘플의 총 개수는 담당자가 리뷰가능한 리소스를 감안하여 최대로 보는 것이 좋음. (많이 볼 수록 많은 인사이트를 얻을 수 있음)

< 신뢰구간과 표준오차에 따른 샘플 수 계산 >

- 표준정규분포에서

모집단의 신뢰구간은 μ ± Zα * δ

표본의 신뢰구간은 Xbar ± Zα * s / √(n-1)

- Binormial distribution을 Normal distribution으로 approximate 하려면

p=0.5, n>20 이면 가능 (= np>10 & nq>10)

n이 충분히 많고 p가 0.5라고 가정하면

표본의 신뢰구간을 아래와 같이 치환 가능.

p ± Zα * √(pq/n)

* p가 0.5일 때 오차가 가장 커지므로, 이론적으로 가정된 표준정규분포가 아닌 경우를 감안해서, 리스크를 가장 크게 반영하는 의미도 있음.

>> 95% 신뢰구간에서 3% 이내의 표준오차를 가지려면, 약 1000개를 샘플링.

Zα * √(pq/n) < 0.03 를 아래와 같이 변형.

n > (Zα/0.03)^2 * (pq) = (1.96/0.03)^2 * (0.5)^2 = 1067.11

>> 95% 신뢰구간에서 5% 이내의 표준오차를 가지려면, 약 400개를 샘플링.

Zα * √(pq/n) < 0.05 를 아래와 같이 변형.

n > (Zα/0.05)^2 * (pq) = (1.96/0.05)^2 * (0.5)^2 = 384.16

>> 99% 신뢰구간에서 3% 이내의 표준오차를 가지려면, 약 2000개를 샘플링.

Zα * √(pq/n) < 0.03 를 아래와 같이 변형.

n > (Zα/0.03)^2 * (pq) = (2.58/0.03)^2 * (0.5)^2 = 1849

>> 99% 신뢰구간에서 5% 이내의 표준오차를 가지려면, 약 700개를 샘플링.

Zα * √(pq/n) < 0.05 를 아래와 같이 변형.

n > (Zα/0.05)^2 * (pq) = (2.58/0.05)^2 * (0.5)^2 = 665.64

* 표준편차 (standard deviation): 관측치가 얼마나 퍼져있는지 확인. 모집단의 표준편차는 분모가 n, 표본의 표준편차는 분모가 n-1 (자유도)

* 표준오차 (standard error): 표본 대표값의 표준편차. 모집단 대표값에서 표본 대표값이 얼마나 떨어져있는지를 나타냄.

저작자표시 비영리 변경금지 (새창열림)

'일 > Data Mining' 카테고리의 다른 글

일의 의미. (0)	2014.03.07
맥킨지, 차트의 기술 (0)	2014.02.27
연관분석 lift confidence support (0)	2013.08.22
Information Theory : Entropy, KL-divergence (Cross Entorpy), Mutual Information, RIG (relative information gain) (0)	2013.08.22
데이터마이닝 : 문제의 확인. (0)	2013.07.27

현재글[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산.

정을 붙이면 어디든 고향

베이징, 야스다 쇼타, 에이또, 동방신기, 준수, daum, Data Mining, 북경, 자막, 칸쟈니,

Today :
Yesterday :

정을 붙이면 어디든 고향