일/Data Mining

[샘플링 가이드] 신뢰구간과 표준오차에 따른 샘플 수 계산.

LEEHK 2014. 1. 2. 19:29

< 샘플링 가이드 >


 

1. 이론적 조언 (2천 개 가량을 추천)

 

    현실의 모집단 대부분이 교과서적인 표준정규분포가 아니기 떄문에 샘플 크기를 가능한 한 크게(1천~2천 이상)하여, 커버리지를 넓히는 것이 좋음.

    95% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 400개를 샘플링.
    95% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 1000개를 샘플링.
    99% 신뢰구간에서 5% 이내의 표준오차를 가지려면 약 700개를 샘플링.
    99% 신뢰구간에서 3% 이내의 표준오차를 가지려면 약 2000개를 샘플링.


2. 이화경 경험적 조언
    샘플링은 그룹별(층화)로 하는 것이 좋음.
    상/중/하 3개의 그룹을 3:3:4, 혹은 5:4:2 등으로 진행.

    각 샘플 그룹당 95%신뢰수준의 추천 샘플수인 300~400개 내외는 확보되도록 하는 것이 좋음.

    ex. 총 1천개 샘플에 300 : 300 : 400 정도의 분포를 추천.
    샘플의 총 개수는 담당자가 리뷰가능한 리소스를 감안하여 최대로 보는 것이 좋음. (많이 볼 수록 많은 인사이트를 얻을 수 있음)

 

 

 

 

< 신뢰구간과 표준오차에 따른 샘플 수 계산 >

 

 

- 표준정규분포에서

 

모집단의 신뢰구간은 μ ± Zα * δ 

표본의 신뢰구간은 Xbar ± Zα * s / √(n-1)

 

 

- Binormial distribution을 Normal distribution으로 approximate 하려면

 

p=0.5, n>20 이면 가능 (= np>10 & nq>10)

 

n이 충분히 많고 p가 0.5라고 가정하면

표본의 신뢰구간을 아래와 같이 치환 가능.

 

p ± Zα * √(pq/n)

 

* p가 0.5일 때 오차가 가장 커지므로, 이론적으로 가정된 표준정규분포가 아닌 경우를 감안해서, 리스크를 가장 크게 반영하는 의미도 있음.

 

 

>> 95% 신뢰구간에서 3% 이내의  표준오차를 가지려면, 약 1000개를 샘플링.

 

Zα * √(pq/n) < 0.03 를 아래와 같이 변형.

 

n > (Zα/0.03)^2 * (pq) = (1.96/0.03)^2 * (0.5)^2 = 1067.11

 

 

>> 95% 신뢰구간에서 5% 이내의  표준오차를 가지려면, 약 400개를 샘플링.

 

Zα * √(pq/n) < 0.05 를 아래와 같이 변형.

 

n > (Zα/0.05)^2 * (pq) = (1.96/0.05)^2 * (0.5)^2 = 384.16

 

 

>> 99% 신뢰구간에서 3% 이내의  표준오차를 가지려면, 약 2000개를 샘플링.

 

Zα * √(pq/n) < 0.03 를 아래와 같이 변형.

 

n > (Zα/0.03)^2 * (pq) = (2.58/0.03)^2 * (0.5)^2 = 1849

 

 

>> 99% 신뢰구간에서 5% 이내의  표준오차를 가지려면, 약 700개를 샘플링.

 

Zα * √(pq/n) < 0.05 를 아래와 같이 변형.

 

n > (Zα/0.05)^2 * (pq) = (2.58/0.05)^2 * (0.5)^2 = 665.64

 

 

 

 

 

* 표준편차 (standard deviation): 관측치가 얼마나 퍼져있는지 확인. 모집단의 표준편차는 분모가 n, 표본의 표준편차는 분모가 n-1 (자유도)

* 표준오차 (standard error): 표본 대표값의 표준편차. 모집단 대표값에서 표본 대표값이 얼마나 떨어져있는지를 나타냄.