n = (1.96 / 1.5)² x 25 = 42.68 => 최소 43개의 표본이 필요하다.
2. 분산 (표준편차)
모집단 가정 : N(μ, σ²) // 정규성에 대한 가정확인 필요
확률 표본 : X1, X2, ..., Xn ~ iid N(μ, σ²)
2.1 점추정
모수 σ <= 표본분산 : S² = 1 / (n-1) ∑ (xi - x̅)²
모수 σ² <= 표본표준편차 : S = √1 )/ (n-1) ∑ (xi - x̅)²
중심축량 = (n - 1) S² / σ² ~χ²(n-1) // 유도는 '수리통계학'에서
예를 들어, 16개의 표본으로 σ²의 95% 신뢰구간을 구해보자.
정규분포와 t-분포는 0을 중심으로 대칭이기 때문에 0.5를 반으로 나눈 면적을 이용해서 가장 짧은 구간. 구할 수 있었다. 하지만, 카이제곱분포는 비대칭 형태이기 때문에 절반으로 나눈 것보다 더 짧은 구간을 구할 방법이 있다. 그러나 그 값은 구하기 매우 어렵기 때문에 카이제곱분포에서도 절반으로 나눠서 구간을 구한다.
예를 들어 95% 신뢰구간을 구할 때, P(158.78 ≤ μ ≤ 166.62) 이라면 신뢰구간은 [158.78, 166.62]이다.
하지만, 이때 μ가 신뢰구간에 포함될 확률은 0.95가 아니라 0 또는 1이다.
신뢰구간이 [x̅ - Z(α/2) ·σ /√n,x̅ + Z(α/2) · σ / √n ] 와 같이 확률변수로 표현될 때는 신뢰구간에 포함될 확률이 0.95이겠지만, 실제 자료로 구간을 구하면 그 구간은 "상수"로 표현되기 때문에 상수 μ가 상수 범위에 포함될 확률은 0또는1이 되는 것이다.
그렇다면 실제 데이터를 통해 상수로 표현될 때, 0.95는 무엇을 의미할까.
위의 경우, 한 번 데이터를 뽑아 만든 신뢰구간이 [158.78, 166.62]이다.
그리고 또 다시 데이터를 뽑아서 신뢰구간을 만들 수 있다. 이렇게 데이터를 새로 뽑으면 표본평균(x̅)이 바뀐다.
그래서 새로 데이터를 10000번 뽑아서 신뢰구간을 10000개 구했을 때, 그 중 9500번 정도에 모평균μ가 포함된다는 의미이다.
4. 가설 검정
가설을 설정하고, 그에 대한 옳고 그름을 표본으로부터 얻은 정보를 통해 확률적으로 판단하는 방법이다.
가설에는 귀무가설과 대립가설이 있다.
대립가설 (H1) 은 표본으로부터 얻은 증거에 의해 우리가 입증하고자 하는 가설이다.
귀무가설 (H0) 은 대립가설의 반대되는 가설로, 검정의 대상이 되는 가설이다.
수학의 '귀류법'과 유사하게, 직접 대립가설을 입증하기 어려운 경우가 많기 때문에, 그에 반대되는 가설인 귀무가설이 잘못됨을 입증하여 대립가설을 입증하는 방법을 이용한다.
즉, [정상적인 표본 => 대립가설 참] 을 입증하는 방법이 어렵기 때문에,
[귀무가설 참 => 비정상적인 표본]을 입증하는 방법을 이용하는 것이다.
정상 / 비정상적인 표본을 구분하는 방법은 표본이 발생할 수 있는 가능성을 통해 구분한다. 비정상적인 표본은 자주 발생하지 않는 표본이다.
이 가능성은 "유의 수준"을 이용해 판단하고 이때 "검정 통계량"을 이용한다.
1) 검정 통계량
귀무가설을 기각시킬 것인가, 채택할 것인가 결정하기 위해 사용되는 통계량이다.
검정 통계량 유도 방법은 '수리통계학'에서 다룬다.
귀무가설 하에서 검정 통계량의 확률 분포를 이용하여 표본의 정상 / 비정상을 판정한다.
비정상 표본은 "기각역"에, 정상적인 표본은 "채택역"에 위치한다.
앞에서 말했듯이 정상, 비정상의 기준은 유의수준으로 결정한다.
예를 들어서, 초코파이를 새로 만든다고 해보자. 기존 파이의 평균 칼로리는 45kcal였고, 가설 검정을 통해 새로운 파이는 기존의 파이보다 칼로리가 낮다는 것을 보이고자 한다.
이때 대립가설은 H1: μ < 45 이고, 귀무가설은 H0: μ ≥ 45 이다.
그렇다면, 귀무가설과 반대되도록 표본평균 x̅이 45보다 작을수록 비정상 자료라고 할 수 있다.
표본평균이 45보다 작을 경우 귀무가설이 옳지 않음을 보여주는 비정상 자료이기 때문에 귀무가설을 기각시킬 수 있다.
2) 오류의 종류
결정 // 실제
귀무가설 사실
대립가설 사실
귀무가설 사실
O
제 2종 오류
대립가설 사실
제 1종 오류
O
º α = maxP( 제 1종 오류 ) = P( H0 기각 | H0 사실 ) : 제 1종 오류를 범할 확률
α : 유의 수준
귀무가설의 경계값에서 P( 제 1종 오류)가 최대가 된다.
º β = 1 - P( 제 2종 오류 ) = 1 - P( H0 채택 | H1 사실 ) : 제 2종 오류를 범할 확률