수업 출처) 숙명여자대학교 통계학과 "통계수학"수업, 윤재은 교수님

 

1. 직교벡터

두 n차원 벡터 x, y에 대해서 x · y = 0일 때, x와 y는 서로 수직이다.

 

단위벡터는 벡터를 벡터의 노음(길이)으로 나눔으로써 만들 수 있다.

 

norm = ||x|| = √(x ·x)

 

단위벡터 z = 1/||x|| x

 

* 직교집합 : n차원 벡터 집합 S = {x₁, x₂, ..., xₚ} 에 속해있는 임의의 두 벡터가 서로 직교일 때,

즉 모든 𝑖, 𝑗에 대해서 x𝑖' x𝑗 = 0 일 때, S를 직교집합이라고 한다.

 

* 정규직교집합 : 직교집합 S에 속하는 모든 벡터가 단위벡터일 대,

즉 ||x𝑖|| = 1일 때 S를 정규직교집합이라고 한다.

- (ex) S = {(1 0 0)T, (0 1 0)T, (0 0 1)T}

 

Th5.1 > 영벡터가 아닌 n차원 벡터 x₁, x₂, ..., xₚ 가 직교집합이면 이 벡터집합은 선형독립이다.

 

pf) a₁x₁ + a₂x₂ + ... + aₚxₚ = 0

양 변에 x₁ 을 곱하면

a₁x₁·x₁ + a₂x₂·x₁+ ... + aₚxₚ·x₁ = 0

직교집합이기 때문에 x₁·x𝑖 = 0

따라서 a₁, a₂, ...., aₚ = 0 -> 선형독립

 

* 직교행렬 : 정규직교 열들로 구성된 정방행렬

 

2. 정사영

 

 

p = ka

b - pa

(b - p) · a = 0

(b - ka) · a = 0

b · a - ka · a = 0

k = b · a / a · a

∴ p = (b · a / a · a) · a

 

* 벡터 b의 평면 V 위로의 정사영 p

 

( A = (a₁ a₂)T )

 

TH5.3 > 선형독립인 a₁ , ..., aₚ 에 의해 생성되는 벡터공간을 V라고 할 때, 벡터 b의 V로의 정사영 p는 p = A (A'A)⁻¹ A' b 을 만족한다.

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬식  (0) 2021.04.13
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

1. n차원 벡터, 벡터합, 내적

 

- 스칼라 : 크기만 있고 방향을 가지지 않는 양

- 벡터 : 크기와 방향 모두 가지고 있는 양

 

** ℝⁿ 의 두 벡터 x = (x1, x2, ..., xn)' 과 y = (y1, y2, ..., yn)' 의 내적은

x · y = Σ x𝑖 y𝑖 = x1y1 + ... + xnyn = xTy = yTx

 

** 벡터 x = (x1, x2, ..., xn)'의 길이 (노음, norm)은 ||x||로 표시하고, ||x|| = √(x · x) = √(Σx𝑖²) 이다.

 

** 두 벡터 x = (x1, x2, ..., xn)' 과 y = (y1, y2, ..., yn)' 사이의 거리

d(x, y) = ||x - y|| = √(x - y) (x - y) = √(Σ(x𝑖 - y𝑖)²)

 

** 내적의 기하학적 의미 x · y = ||x|| ||y|| cosθ

 

** x · y = 0 이면 두 벡터는 직교 (xy)

 

** 두 벡터가 이루는 각을 θ라고 하면 cosθ = x · y / ||x|| ||y||

 

** 임의의 n차원 벡터에 대해 다음이 성립한다. <x, y> = x · y

> <x, y>² ≤ <x, x> <y, y>

> ||x + y|| ≤ ||x|| + ||y||

 

2. 선형독립과 선형종속

 

: x1, x2, ..., xm이 n차원 벡터들이며, a1, a2, ..., am 이 스칼라일 때

u = a1 x1 + ... + am xm 형태의 합을 x1, x2, ..., xm 의 선형결합 이라고 한다.

 

어떤 벡터가 다른 벡터들의 선형결합으로 얻어질 수 있는지 규명하는 것이 중요하다.

 

ex) 3차원 벡터

 

x1 = (3, 0, 1)', x2 = (2, -1, 3)', x3 = (5, 0, 4)' 의 선형결합으로 y = (1, 3, -2)' 표현하면

y = (-1) x1 + (-3) x2 + 2 x3

 

벡터들의 집합 S = {x1, x2, ..., xm}에서 a1 x1 + ... + am xm = 0 을 만족하는 a𝑖 들의 값이 a1 = a2 = ... = 0만 존재한다면 S는 선형독립이라고 한다.

만약 적어도 하나는 0이 아닌 a𝑖 가 존재한다면 S는 선형종속이라고 한다.

 

즉, S가 선형독립이면 어떠한 벡터도 다른 벡터들의 선형결합으로 표시될 수 없다. 

S가 선형종속이면 어느 한 벡터가 다른 벡터들의 선형결합으로 표시될 수 있다.

 

이를 규명할 때에는 a1 x1 + ... + am xm = 0 형태로 놓고 a𝑖에 대해 연립방정식을 풀면 된다.

a𝑖가 모두 0이 나오면 선형독립인 것이고, a𝑖끼리의 관계식이 나온다면 선형종속인 것이다.

 

Th4.1 > 두 개 이상의 벡터로 구성된 벡터 집합 S = {x1, x2, ..., xm} 이

> 선형종속이기 위한 필요충분조건은 S에 속하는 벡터 중 적어도 하나의 벡터가 다른 벡터의 선형결합으로 표현 가능한 것이다.

> 선형독립이기 위한 필요충분조건은 S에 속하는 어떤 벡터도 다른 벡터의 선형결합으로 표현될 수 없는 것이다.

 

Th4.2 > 두 벡터만을 갖는 집합이 선형종속이기 위한 필요충분조건은 적어도 이들 벡터 중 하나가 다른 벡터의 실수배로 되는 것이다.

 

* n차원 벡터를 선형독립이 유지되도록 모았을 때 최대한 모을 수 있는 개수는 n개이다.

 

* n차원 벡터를 n+1개 이상 모으면 무조건 선형종속이 된다.

 

3. 벡터공간 

 

V 를 벡터들을 모아놓은 집합이라고 할 때, V의 모든 원소 x, y에 대해 다음의 두 성질이 만족하면 V를 벡터공간이라고 한다.

(v1)  x ∈ V, y ∈ V → x + y ∈ V      : 덧셈에 대해 닫혀있다

(v2)  x ∈ V → ax ∈ V                     : 곱셈에 대해 닫혀있다

 

ex) V = {(x, y, z) : x + y + z = 0} 

 

(v1)  V1 = (x1, y1, z1)' ∈ V, V2 = (x2, y2, z2)' ∈ V

V1 + V2 = (x1 + x2, y1 + y2, z1 + z2)'

(x1 + x2) + (y1 + y2) + (z1 + z2) = (x1 + y1 + z1) + (x2 + y2 + z2) = 0 ∈ V

 

(v2) a(x1 + y1 + z1) = 0 ∈ V

 

벡터공간 V = R³의 임의의 원소 z = (z₁ z₂ z₃)T가 x₁ x₂ ·x

 

벡터공간을 생성하면서 선형독립인 벡터들의 모임을 "기저"라고 한다. 

벡터공간의 기저는 유일하지 않다.

 

 

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬식  (0) 2021.04.13
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

1. 역행렬

: 정방행렬 A 에 대해서 AB = BA = I 를 만족하는 정방행렬 B, A⁻¹로 표시

 

 

역행렬이 존재하기 위한 조건은 A가 정방행렬이면서 det(A) ≠ 0이어야 한다.

 

* 2차 정방행렬 역행렬 구하는 방법

 

A = [a b; c d]

|A| = ad - bc

A⁻¹ = 1 / (ad - bc) [d -b; -c a]

 

 

2. 역행렬 성질

 

Th3.1 > 정방행렬 A의 역행렬이 존재하는 경우 그 역행렬은 유일하다.

 

Th3.2 > A의 역행렬이 존재하기 위한 필요충분조건은 |A| ≠ 0이다.

 

Th3.3 > A가 가역행렬이면 A⁻¹ 역시 가역이며 (A⁻¹)⁻¹ = A 이다.

 

 

** 가역 = 정칙 = 역행렬 존재

 

Th3.4 > (A⁻¹)T = (AT)⁻¹

 

Th3.5 > A와 B가 각각 정칙이면 AB 역시 정칙이며 다음이 성립한다.

> (AB)⁻¹ = B⁻¹ A⁻¹

> (ABC)⁻¹ = C⁻¹ B⁻¹ A⁻¹

 

Th3.6

> A가 가역행렬일 때 kA도 가역행렬이고 (kA)⁻¹ = 1/k A⁻¹ 이다.

 

> A가 가역행렬일 때 Aⁿ 도 가역행렬이고, (Aⁿ)⁻¹ = (A⁻¹)ⁿ 이다.

 

Th3.7> A가 정칙일 때, PA = QA 이면 P = Q 이다.

 

Th3.8 > Ax = b 에서 A가 정칙이면 x = A⁻¹ b 이다.

→ 연립방정식의 풀이에 활용할 수 있음

 

3. 행렬의 분할

: 행렬을 블록화하여 간단히 나타낼 수 있다.

 

 

 

* 분할행렬의 전치행렬은 각각의 분할된 행렬을 전치한 것과 같다.

 

* 분할행렬의 곱

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 행렬식  (0) 2021.04.13
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

1. 행렬식

: 정사각행렬에 실수값을 대응시키는 함수

 

1-1. 1차원 행렬 행렬식 

det(a11) = a11

 

1-2. 2차원 행렬 행렬식

1-3. n차원 행렬의 행렬식

 

소행렬식과 여인자를 활용하여 라플라스 전개를 통해 구한다.

- 소행렬식 : A의 𝑖번째 행과 𝑗번째 열을 지운 뒤에 남는 행렬을 M𝑖𝑗라고 하면, 이것의 행렬식 det(M𝑖𝑗)를 a𝑖𝑗의 소행렬식이라고 한다.

- 여인자 : (-1)^(𝑖𝑗) |M𝑖𝑗| 를 a𝑖𝑗의 여인자라고 한다.

 

 

Th2.1 > 행렬식의 라플라스 전개

행렬 A (n x n) = (a𝑖𝑗)의 행렬식은 다음과 같이 계산될 수 있다.

 

> (𝑖번째 행의 각 원소 (a𝑖𝑗))와 그 원소의 여인자 ((-1)^(𝑖𝑗) |M𝑖𝑗|) 를 곱해서 더한 것

> (𝑗번째 행의 각 원소 (a𝑖𝑗)와 그 원소의 여인자 ((-1)^(𝑖𝑗) |M𝑖𝑗|) 를 곱해서 더한 것

 

둘 중 하나를 선택해서 계산하면 되고, 어떤 행이나 열을 택해서 라플라스 전개로 행렬식을 구해도 같은 값이 나온다.

따라서 계산이 쉬운 행이나 열을 택하면 되고, 특히 원소값이 0인 원소가 많은 행이나 열을 택하는 것이 좋다.

 

2. 삼각행렬 

- 상삼각행렬 : 주대각선을 기준으로 대각선 아래쪽 항들의 값이 모두 0인 정사각행렬

- 하삼각행렬 : 주대각선을 기준으로 대각선 위쪽 항들의 값이 모두 0인 정사각행렬

 

Th2.2 > 행렬 A (n x n)가 삼각행렬일 때, A의 행렬식은 대각원소들의 곱이다.

det(A) = a11 x a22 x ... x ann

 

Th2.3 > 대각행렬의 행렬식은 대각원소들의 곱이다.

대각행렬은 상삼각행렬이면서 하삼각행렬이다. 따라서 Th2.2가 성립한다.

 

3. 행렬식의 성질

 

Th2.4 > 전치행렬 AT의 행렬식은 원래 행렬 A의 행렬식과 같다.

det(A) = det(AT)

전치해도 마주보는 값은 동일하기 때문이다.

 

Th2.5 > 행렬 A가 0만으로 이루어진 행 또는 열을 갖고 있으면 det(A) = 0이다.

 

<행렬의 기본 연산>

 

1) 두 행을 서로 교환

2) 한 행에 0이 아닌 실수를 곱한다.

3) 한 행에 0이 아닌 실수를 곱하여 다른 행에 더한다.

(행을 열로 바꾼 것도 기본연산)

 

Th2.6 (행을 열로 바꾸어도 모두 성립)

> A의 두 행을 교환하여 행렬 B 를 얻었을 때  det(B) = -det(A)   → 1연산

> A의 한 행에 상수 c를 곱하여 B를 얻었을 때  det(B) = c det(A)  → 2연산

> A의 한 행에 어떤 상수를 곱하여 다른 행에 더해서 B를 얻었을 때  det(B) = det(A) → 3연산

 

Th2.7 > 행렬 A의 두 행(열)이 같거나 한 행(열)이 다른 행의 상수배이면 det(A) = 0이다.

 

행렬식을 구할 때 기본연산을 활용하여 원소값이 0인 원소를 많이 만들거나 삼각행렬 / 대각행렬을 만드는 것이 유리하다.

 

Th2.8 > 행렬 A (n x n)와 B(n x n)가 있을 때, det(AB) = det(A) det(B) 이다.

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

 

1. 행렬

: 행과 열로 구분지어진 숫자들의 단순한 직사각형 배열

 

A의 (i, j)성분은 a𝑖𝑗로 표시

 

행렬의 표시는 위와 같이 원소를 일일히 보여주는 방식과 아래와 같이 (i, j) 성분에 대한 식을 제시하는 방식이 있다.

a𝑖𝑗 = i + j2 - 1, i = 1, 2, j = 1, 2

 

 

2. 기본이 되는 몇가지 행렬

 

2-1. 정방행렬 : 행의 수와 열의 수가 같은 행렬

2-2. 영행렬 : 원소가 전부 0인 행렬 (Φ)

2-3. 대각행렬 : 정방행렬에서 모든 비대각원소가 0인 행렬

2-4. 단위행렬 (항등행렬) (E or I) : 대각행렬에서 대각원소의 값이 전부 1인 행렬

2-5. 전치행렬 : 행렬 A의 행과 열을 서로 바꾸어 놓은 행렬 (A' or AT)

2-6. 대칭행렬 : A = AT를 만족하는 정방행렬, 주대각원소를 중심으로 원소들이 대칭구조를 갖고 있는 정방행렬

 

3. 벡터 : 한 개의 열 또는 행으로 이루어진 행렬

 

3-1. 열벡터 (x) : n x 1 인 행렬 

3-2. 행벡터 (xT) : 1 x m 인 행렬 

3-3. 영벡터 : 모든 원소가 0인 벡터

 

특징

- 기본적으로 행렬은 열벡터로 표현한다.

- m차원 열벡터와 n차원 행벡터의 곱의 결과는 m x n 행렬이다.

- n차원 행벡터와 n차원 열벡터의 곱의 결과는 실수이다. (스칼라)

- xTy = yTx 가 성립하며, x · y = xTy = yTx 를 두 벡터의 내적이라고 정의한다.

 

4. 행렬의 연산

4-1. 두 행렬 A, B가 같을 조건

 

  • A와 B의 크기가 같다.
  • 같은 위치에 있는 원소들이 모두 동일하다.

 

4-2. 행렬의 합과 차

 

조건 : 두 행렬이 같은 크기여야 한다.

 

A (m x n) = (a𝑖𝑗), B (m x n) = (b𝑖𝑗) 에 대해

 

- A + B = (a𝑖𝑗 + b𝑖𝑗)

- cA = (ca𝑖𝑗)

- (-1)A = -A

- A - B = (a𝑖𝑗 - b𝑖𝑗)

 

Th 1.2 > (A + B)T = AT + BT

 

4-3. 행렬의 곱

 

조건 : AB가 정의되기 위해서는 A의 열의 수와 B의 행의 수가 같아야 한다.

ex) A (2 x 3), B (3 x 5) → AB (2 x 5)

 

AB의 𝑖𝑗 원소는 A의 𝑖번째 행과 B의 𝑗번째 열의 곱으로 계산한다.

특징

- AB ≠ BA 

- AB가 존재하더라도 BA가 존재하지 않을 수 있다.

- AB = O 임에도 불구하고 A ≠ O 이고 B ≠ O 인 행렬 A, B가 존재한다.

 

- AB의 (𝑖, 𝑗) 원소는 A의 𝑖번째 행을 나타내는 벡터와 B의 𝑗 번째 열을 나타내는 벡터의 내적이다.

 

 

Th 1.3 > 행렬 A, B, C가 아래 연산이 성립되는 크기를 가질 때 다음의 규칙이 성립한다.

> A + B = B + A

> A + (B + C) = (A + B) + C

> A(BC) = (AB)C

> A(B + C) = AB + AC

> (A + B)C = AB + BC

 

Th 1.4

> (AB)T = BT AT 

> (ABC)T = CT BT AT

 

Th 1.5 > ATA = O 또는 AAT = O 이면 A = O

 

5. 역행렬

: 정방행렬 A에서 AB = BA = I 가 성립되는 정방행렬 B가 존재하면 B를 A의 역행렬이라 하고, B = A(1) 이라고 표시한다.

 

특징

- 모든 행렬이 역행렬을 갖고 있는 것은 아니며, 존재하면 유일하다.

- AB = I 가 성립하면 BA = I 도 성립한다.

 

 

 

 

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬식  (0) 2021.04.13

0. 단일 모집단의 추론

통계적 추론에서 한 개의 모집단을 추론하는 방법이다.

 

EX) 통계학 관련학과 취업률의 평균이 얼마나 될까?

     평균을 알아보기 위해 표본을 몇 개 추출해야 하는가?

     남녀의 출생성비가 얼마나 될까?

     안정적으로 제품이 생산되고 있는가?

 

1. 모평균

  • 모집단 가정 : N(μ, σ²)                               // 정규성에 대한 가정확인 필요
  • 확률 표본 : X1, X2, ..., Xn ~ iid N(μ, σ²)         // iid: 서로 독립이며 동일한 분포를 가진다. (정규분포)

 

1.1 점추정

μ <= x̅ ~ N( μ, σ²/n ) 

 

(표준화) ( x̅ - μ ) / ( σ / √n ) ~ N( 0, 1 )    => 중심축량 (σ 알 때)

 

σ 모를 때) ( x̅ - μ ) / ( S / √n ) ~ t(n-1)

 

1.2 t-분포

X1, X2, ..., Xn ~ iid N(μ, σ²) 이면, T = ( x̅ - μ ) / ( S / √n ) ~ t(n-1)

 

- 자유도가 n-1 인 t-분포

 : 0을 중심으로 대칭

  정규분포보다 양쪽 꼬리가 두꺼움

  자유도가 커질수록 표준정규분포에 근접

t-분포표

 

정규분포표와는 다르게 자유도와 확률로 구성된 t-분포표이다. 

자유도에 따라 t-분포의 모양이 다르기 때문이다. 

 

이처럼 확률과 자유도를 활용해서 그에 해당하는 값을 찾을 때 이용한다.

tα 값은 구간추정이나 기각역을 설정할 때 임계값으로 활용된다.

 

1.3 구간추정

100(1-α)% 신뢰구간을 구할 때

 

1-α = P( -t(α/2,n-1) ≤ T t(α/2,n-1) )

      = P( -t(α/2,n-1) ( x̅ - μ ) / ( S / √n )  t(α/2,n-1) )

      = P( x̅ - t(α/2,n-1) S / √n ≤ μx̅ + t(α/2,n-1) S / √n )

 

=> [ x̅ - t(α/2,n-1) S / √n, x̅ + t(α/2,n-1) S / √n]

 

 

예제) 통계학 관련학과 취업률 - 42개 과 조사 결과 

 

  • ∑ xi = 2468.4, ∑ xi² = 154975.4

      => x̅ = 58.77, S² = 241.56, S = 15.54

 

  • t(0.025, 41) = 2.020

 

  • 신뢰구간 = [58.77 - 2.02 x 15.54/√42, 58.77 + 2.02 x 15.54/√42] = [53.93, 64.05]

 

1.4 가설검정

  • H0: μ = μ0  vs  H1: (a) μ > μ0, (b) μ > μ0, (c) μ ≠ μ0

  • 검정통계량 : T0 = ( x̅ - μ0 ) / ( S / √n ) ~ t(n-1)

  • 유의수준 α일 때 기각역 : (a) t0 > t(α, n-1), (b) t0 < -t(α, n-1), (c) |t0| > t(α/2, n-1)

 

예제) 통계학 관련학과 취업률

해당년도 전체 대졸자 취업률이 54.5%일 때 통계학과 취업률 평균이 더 높은가?

 

  • H0 : μ = 54.5, H1 : μ > 54.5

  • T = (58.77 - 54.5) / (15.54 / √42) = 1.78 > t(0.05, 41) = 1.683

=> 귀무가설이 기각되었기 때문에 5% 유의수준에서 통계학과 취업률 평균이 더 높다고 볼 수 있다.

 

1.5 정규모집단으로부터 추출된 확률표본 ~ t(n-1) 

=> 자료에 대한 정규성 검정 필요

 

  • 히스토그램, Q-Q plot -> 그림으로 판단한다. (이상치 유무 ∵ x̅, S가 이상치에 민감)

  • Jarque-Bera test, Shapiro-Wilk test 등 ...

     JB = (n/6) (b1 + 1/4 (b2 - 3)² ) = χ²(2)

         - √b1 : 왜도 (기울어짐, 대칭 등의 모양을 나타냄, 대칭일 때 왜도 = 0)

         - b2 : 첨도 (꼬리가 얼마나 두꺼운지 나타냄, 정규분포일 때 첨도 = 3)

 

1.6 정규성을 만족하지 않는 경우

대표본, 비모수적인 방법, 재표집 방법이 있지만, 비모수적인 방법은 '비모수 통계'에서, 재표집 방법은 대학원에서 배운다.

 

[대표본의 경우]

 

  • 표본 크기가 경우 → 중심극한정리에 의해 x̅ N( μ, σ²/n)

  • Z = ( x̅ - μ ) / ( σ / √n ) ≅ N( 0, 1 )

     => T = ( x̅ - μ ) / ( S / √n ) N( 0, 1 )

 

  • 100(1-α)% 신뢰구간 [ x̅ - Z(α/2) S / √n, x̅ + Z(α/2) S / √n ]

  • 검정통계량 : Z0 = ( x̅ - μ0 ) / ( S / √n ) ≅ N( 0, 1 )

 

예제) A 담배에 포함된 평균 니코틴 함유량을 알아보기 위해 100개의 A 담배를 임의추출하여 조사한 결과 평균 함유량이 0.53mg, 표준편차는 0.11mg 으로 나타났다. 실제 평균 니코틴에 대한 95% 신뢰구간은?

 

[0.53 - 1.96 x 0.11 / √100, 0.53 + 1.96 x 0.11 / √100]

= [0.508, 0.552]

 

소비자 단체에서 A 담배에 포함된 니코틴 함유량이 표지에 표시된 0.5mg보다 많다고 주장한다. 위의 결과를 토대로 니코틴 함유량 평균이 표기된 것보다 많은지를 5% 유의수준에서 검정해보자.

 

Z = (0.53 - 0.5) / (0.11 / 10) = 0.03 / 0.011 = 2.727 > 1.645 = Z(0.05)

=> 귀무가설 기각 → 실제 니코틴 함유량은 표기된 0.5mg보다 많다.

 

1.7 모수 추정을 위한 표본크기 추정

  • 표본 수집은 비용, 시간 등의 제약 조건에 영향을 받는다.

  • 표본의 크기는 모수 추정의 정확도 및 신뢰도에 영향을 준다.

  • 신뢰수준 <= 신뢰도

  • 오차범위(δ) (오차: x̅ - μ) <= 정확도

  • 100(1-α)% 신뢰수준에서 허용오차범위가 ±δ 일 때

    P( |x̅ - μ| < δ) = 1-α

 

표본 크기 결정하는 방법

 

예를 들어, σ (=S) = 5, 95% 신뢰수준, 오차범위 ±1.5 일 때

n = (1.96 / 1.5)² x 25 = 42.68  =>  최소 43개의 표본이 필요하다.

 

2. 분산 (표준편차)

  • 모집단 가정 : N(μ, σ²)                               // 정규성에 대한 가정확인 필요

  • 확률 표본 : X1, X2, ..., Xn ~ iid N(μ, σ²)

 

2.1 점추정

  • 모수 σ <= 표본분산 : S² = 1 / (n-1) ∑ (xi - x̅)²

  • 모수 σ² <= 표본표준편차 : S = 1 )/ (n-1) ∑ (xi - x̅)²

  • 중심축량 = (n - 1) S² / σ² ~ χ²(n-1)       // 유도는 '수리통계학'에서

카이제곱분포

 

예를 들어, 16개의 표본으로 σ²의 95% 신뢰구간을 구해보자.

 

정규분포와 t-분포는 0을 중심으로 대칭이기 때문에 0.5를 반으로 나눈 면적을 이용해서 가장 짧은 구간. 구할 수 있었다. 하지만, 카이제곱분포는 비대칭 형태이기 때문에 절반으로 나눈 것보다 더 짧은 구간을 구할 방법이 있다. 그러나 그 값은 구하기 매우 어렵기 때문에 카이제곱분포에서도 절반으로 나눠서 구간을 구한다.

 

그러면 다음과 같이 식을 세울 수 있다.

X² = (n-1) S² / σ² ~ χ²(n-1)

 

P( χ²(0.975, 15) ≤ X² χ²(0.025, 15))  = 0.95

= P( (n-1) S² / χ²(0.025, 15) σ² (n-1) S² / χ²(0.975, 15) )

 

σ²의 100(1-α)% 신뢰구간을 공식으로 나타내면 다음과 같다.

[ (n-1) S² / χ²(α/2, n-1), (n-1) S² / χ²(1-α/2, n-1) ]

 

 

예제) 생산된 제품의 평균 강도보다는 안정적으로 생산되고 있는가에 더 관심이 있어 제품 강도의 표준편차 σ를 추정하기 위해 무작위로 8개를 선택하여 제품강도를 측정했다.

S² = 3.65,  χ²(0.025, 7) = 1.69,  χ²(0.975, 7) = 16.013

 

  • σ²의 95% 신뢰구간

  = [7 · 3.65 / 16.013 , 7 · 3.65 / 1.69]

  = [1.596, 15.122]

 

  • σ의 95% 신뢰구간

  = [√1.596, √15.122]

  = [1.263, 3.889]

 

2.2 가설검정

  • H0: σ² = σ²0  vs  H1: (a) σ² > σ²0, (b) σ² > σ²0, (c) σ² ≠ σ²0
  • 검정통계량 : X² = (n-1) S² / σ²0 ~ χ²(n-1)
  • 유의수준 α일 때 기각역 : (a) X²0 > χ²(α, n-1), (b) X²0 < χ²(1-α, n-1), (c) X² > χ²(α/2, n-1) or X² < χ²(1-α/2, n-1)

앞의 예제) 표준편차가 2 미만일 때 안정적인 품질관리가 유지된다고 할 때 품질관리가 유지되는지 검정하여라.

 

  • H0 : σ = 2 vs H1 : σ < 2  => H0 : σ² = 4 vs H1 : σ² < 4
  • 검정통계량 : X² = (n-1) S² / 4 ~ χ²(n-1)
  • 5%의 유의수준에서 X²  = 7 · 3.65 / 4 = 6.389 > χ²(0.95, 7) = 2.167

 

=> 검정통계량이 기각역에 포함되지 않기 때문에 대립가설이 기각된다.

따라서 품질이 안정적으로 유지되고 있다고 볼 수 없다.

 

3. 모비율 π

  • 표본 크기가 큰 경우 (대표본)
  • 베르누이 확률표본 X1, X2, ..., Xn ~ iid B(π)
  • 성공횟수 X = X1+ ··· + Xn

 

3.1 점추정량

  • 모수 π <= P = X / n : 표본비율

대부분의 교재에서 p와 p^으로 나타내는 것을 여기서는 각각 π와 P로 나타내겠다.

 

표본비율을 활용하기 위해 모집단을 π와 1-π 두 부분으로 나눠서 표본(X1, ···, Xn)을 구해보자.

π에 속한 표본을 1, 1-π에 속한 표본을 0이라고 했을 때 그 합을 X라고 하면, X는 이항분포 B(n, π)를 따른다.

모비율을 추론하기 위해 표본비율을 이용하려고 한다.

 

P = X / n ≅ N( π, π(1-π) / n ) 

 

n이 충분히 크면 중심극한정리에 의해 P가 정규분포에 근사한다. 따라서 위와 같이 나타낼 수 있다.

정규근사를 하는 조건은 nπ ≥ 5, n(1-π) ≥ 25 정도면 적절하다.

표준화를 하면

 

Zp = (P - π) / π(1-π) / n ≅ N(0,1)

이와 같은 식이 나온다.

이때 Zp가 일종의 중심축량이 된다.

 

3.2 구간추정

1-α = P( -Z(α/2) ≤ (P - π) / √π(1-π) / n ≤ Z(α/2) )

      = P( P - Z(α/2) · √π(1-π) / n ≤ πP + Z(α/2) · √π(1-π) / n )

 

이때 π의 표준오차범위에 π가 포함되어있기 때 π 대신 P를 사용한다.

 

=> [ P - Z(α/2) · √P(1-P) / n, P + Z(α/2) · √P(1-P) / n ]

 

예제) 1889년 한 지역에서 73380명의 신생아 중 아들이 38100명이었다. 

이 지역의 아들의 출생비율 π에 대한 95% 신뢰구간을 구해보자.

 

P = 38100 / 73380 = 0.519

SE = √0.519 · 0.481 / 73380 = 0.00184

 

신뢰구간 = [0.519 - 1.96 · 0.0018, 0.519 + 1.96 · 0.0018]

             = [0.5156, 0.5228]

 

3.3 가설검정

  • H0: π = π0  vs  H1: (a) π > π0, (b) π > π0, (c) π ≠ π0
  • 검정통계량 : Z0 = ( P - π0 ) / √π0 · (1-π0) / n ~ N(0, 1)
  • 유의수준 α일 때 기각역 : (a) Z0 > Zα, (b) Z0 < Zα, (c) |Z0| > Z(α/2)

 

앞의 예제) 그 당시 아들의 출생비율(π)이 딸의 출생비율보다 큰지 검정해보자.

 

  • 가설 H0 : π = 0.5 vs H1 : π > 0.5
  • 검정통계량 Z0 = (0.519 - 0.5) / √0.5 · 0.5 / 73380 ~ N(0, 1)
  • 1% 유의수준 -> Z(0.01) = 2.326 < Z0 = 10.41

 

=> 검정통계량이 기각역에 포함되기 때문에 대립가설이 성립한다.

따라서 아들의 출생비율이 더 높았다고 볼 수 있다.

 

3.4 표본크기 결정

  • 오차 : P - π
  • 100(1-α)% 신뢰수준에서 허용오차범위 ±δ

    1-α = P( |P - π| < δ )

 

=> δ = Z(α/2) · √π(1-π) / n

=> n = ( Z(α/2) / δ )² · π(1-π)

 

예를 들어, 95% 신뢰수준이고 표본오차는 ±3.1%인 설문조사라면 최소 1천명의 표본이 필요하다.

 

π에 대한 정보가 없는 보통의 경우에는 모든 π에 대해 성립하도록 n을 결정한다.

n = ( Z(α/2) / δ )² · π(1-π) 이 식에서 π(1-π)는 π = 0.5일 때 가장 크기때문에 π를 모르는 경우 0.5로 정한다. 

 

예제) 95% 신뢰수준에서 오차범위 ±5% (δ = 0.05)인 경우

n = 1/4 · (1.69 / 0.05)² = 384.16 => 최소 385개의 표본이 필요하다.

'Statistics > 기초통계학' 카테고리의 다른 글

[기초통계학] 통계적 추론  (0) 2021.01.16

1. 통계적 추론

통계적 추론은 크게 두 가지로 나눌 수 있다.

 

1) 모수적 추론: 모집단을 가정하고, 표본을 이용해 모수를 추론한다.

2) 비모수적 추론: 모집단을 가정하지 않기 때문에 특정 모수에 대해서는 관심을 갖지 않으며, 통계량을 활용하여 추론한다. 

 

또, '베이지안 추론'이 있는데, 이것은 모수가 확률변수라고 가정한 뒤, 모수의 확률분포에 대해 알아본다. 학부 때에는 거의 배우지 않지만 활용도가 매우 높다.

 

통계적 추론은 목적과 방법에 따라 추정과 가설검정으로 나눌 수 있다.

  • 추정: 모수가 얼마인지 (점추정) 또는 모수가 포함되어 있을 것으로 생각되는 구간 (구간추정) 을 확률적으로 찾는 것이다. 
  • 가설검정: 모수에 대한 가설을 세우고, 가설의 옳고 그름을 확률적으로 판정하는 방법이다.

 

2. 점추정

미지의 모수를 표본의 어떤 함수 (통계량) 을 이용해 어떠한 값으로 추정하는 과정이다.

 

방법으로는 적률법, 최대가능도추정법, 최소제곱법 등이 있는데, 이에 대해서는 이후 '수리통계학'에서 다룬다.

 

점추정에는 '직관적인 추정량'을 이용한다.

모수 통계량
모평균 표본평균
모비율 표본비율
모분산 표본분산
모표준편차 표본표준편차

이처럼 통계량을 이용해서 모수를 추정하는 것이다.

 

이때, 추정량과 추정값에 대한 차이를 알아야 한다.

추정량 (estimator)확률 변수로 실험을 진행하기 전, 아직 결정되지 않은 변수를 말한다. 확률분포가 존재한다.

추정량은 대문자를 이용한다. ex) X1, X2, ..., Xn => x̅ (표본평균)

 

추정값 (estimate)실제 관측값으로, 변하지 않는 상수이다. ex) x̅, p, s², s

 

점추정량이 정확히 모수와 일치할 확률은 거의 없다. 대신 구간추정과 가설검정에서의 기준통계량으로 사용된다.

 

3. 구간추정

미지의 모수가 포함되어 있을 것이라고 생각되는 구간을 확률적으로 찾는 방법이다.

 

P(L ≤ θ ≤ U) = 1 - α      => L과 U 찾는 것  (θ = 모평균, 모비율, 분산 등)

 

예를 들어서, θ를 포함할 확률이 95%가 되는 구간을 찾는 것이다. 

이때 100(1 - α)% 는 "신뢰 수준"이라고 하고, [L, U]가 "신뢰 구간"이다.

 

L과 U를 유도하는 데 점추정량이 중심적 역할을 한다.

 

예를 들어보자면,

모평균 μ에 대한 95% 신뢰구간을 구하려 한다.

 

  • 모집단 가정: N(μ, σ²)이고, σ²을 알고있는 경우
  • 표본 추출: X1, X2, ..., Xn ~ iid N(μ, σ2²)
  • μ의 점추정량:  
  • x̅의 통계적 성질: x̅ ~ N(μ, σ² /n)  ->  Z = (x̅ - μ) / (σ² / n) ~ N(0, 1)   #정규분포 따름

 

표본정규분포로부터

0.95 = P( -1.96 < Z < 1.96 )

         P( -1.96 < (x̅ - μ) / (σ / n) < 1.96 )

         P( x̅ - 1.96 · σ / n < μ < x̅ + 1.96 · σ / n )

 

∴ 95% 신뢰구간 = [ x̅ - 1.96 · σ / n, x̅ + 1.96 · σ / n ]

   100(1 - α)% 신뢰구간 = [ x̅ - Z(α/2) · σ / n, x̅ + Z(α/2) · σ / n ]

 

 

 

실제 자료를 통해 신뢰구간을 구했을 때, 

예를 들어 95% 신뢰구간을 구할 때, P(158.78 ≤ μ ≤ 166.62) 이라면 신뢰구간은 [158.78, 166.62]이다.

하지만, 이때 μ가 신뢰구간에 포함될 확률은 0.95가 아니라 0 또는 1이다.

신뢰구간이 [ x̅ - Z(α/2) · σ / n, x̅ + Z(α/2) · σ / n ] 와 같이 확률변수로 표현될 때는 신뢰구간에 포함될 확률이 0.95이겠지만, 실제 자료로 구간을 구하면 그 구간은 "상수"로 표현되기 때문에 상수 μ가 상수 범위에 포함될 확률은 0또는1이 되는 것이다.

그렇다면 실제 데이터를 통해 상수로 표현될 때, 0.95는 무엇을 의미할까.

위의 경우, 한 번 데이터를 뽑아 만든 신뢰구간이 [158.78, 166.62]이다.

그리고 또 다시 데이터를 뽑아서 신뢰구간을 만들 수 있다. 이렇게 데이터를 새로 뽑으면 표본평균()이 바뀐다. 

그래서 새로 데이터를 10000번 뽑아서 신뢰구간을 10000개 구했을 때, 그 중 9500번 정도에 모평균μ가 포함된다는 의미이다.

 

4. 가설 검정

가설을 설정하고, 그에 대한 옳고 그름을 표본으로부터 얻은 정보를 통해 확률적으로 판단하는 방법이다.

 

가설에는 귀무가설과 대립가설이 있다.

대립가설 (H1) 은 표본으로부터 얻은 증거에 의해 우리가 입증하고자 하는 가설이다.

귀무가설 (H0) 은 대립가설의 반대되는 가설로, 검정의 대상이 되는 가설이다.

 

수학의 '귀류법'과 유사하게, 직접 대립가설을 입증하기 어려운 경우가 많기 때문에, 그에 반대되는 가설인 귀무가설이 잘못됨을 입증하여 대립가설을 입증하는 방법을 이용한다. 

 

즉, [정상적인 표본 => 대립가설 참] 을 입증하는 방법이 어렵기 때문에,

[귀무가설 참 => 비정상적인 표본]을 입증하는 방법을 이용하는 것이다.

정상 / 비정상적인 표본을 구분하는 방법은 표본이 발생할 수 있는 가능성을 통해 구분한다. 비정상적인 표본은 자주 발생하지 않는 표본이다. 

이 가능성은 "유의 수준"을 이용해 판단하고 이때 "검정 통계량"을 이용한다.

 

1) 검정 통계량

 

귀무가설을 기각시킬 것인가, 채택할 것인가 결정하기 위해 사용되는 통계량이다.

검정 통계량 유도 방법은 '수리통계학'에서 다룬다.

 

귀무가설 하에서 검정 통계량의 확률 분포를 이용하여 표본의 정상 / 비정상을 판정한다.

비정상 표본은 "기각역"에, 정상적인 표본은 "채택역"에 위치한다.

앞에서 말했듯이 정상, 비정상의 기준은 유의수준으로 결정한다.

 

 

 

예를 들어서, 초코파이를 새로 만든다고 해보자. 기존 파이의 평균 칼로리는 45kcal였고, 가설 검정을 통해 새로운 파이는 기존의 파이보다 칼로리가 낮다는 것을 보이고자 한다. 

이때 대립가설은 H1: μ < 45 이고, 귀무가설은 H0: μ ≥ 45 이다.

그렇다면, 귀무가설과 반대되도록 표본평균 x̅이 45보다 작을수록 비정상 자료라고 할 수 있다.

표본평균이 45보다 작을 경우 귀무가설이 옳지 않음을 보여주는 비정상 자료이기 때문에 귀무가설을 기각시킬 수 있다.

 

2) 오류의 종류

 

결정 // 실제 귀무가설 사실 대립가설 사실
귀무가설 사실 O 제 2종 오류
대립가설 사실 제 1종 오류 O

 

º α = maxP( 제 1종 오류 ) = P( H0 기각 | H0 사실 ) : 제 1종 오류를 범할 확률

α : 유의 수준

귀무가설의 경계값에서 P( 제 1종 오류)가 최대가 된다.

 

º β = 1 - P( 제 2종 오류 ) = 1 - P( H0 채택 | H1 사실 ) : 제 2종 오류를 범할 확률

1 - β = P(H0 기각 | H1 사실) : 검정력  (옳은 결정을 할 확률)

 

앞의 예제와 연결지어서 생각해보자. 추가적으로 파이는 16개를 무작위로 조사하였고, 표준편차가 8인 정규분포를 따른다고 가정하자.

귀무가설은 H0: μ ≥ 45 이고, 대립가설은 H1: μ < 45이지만, 계산을 쉽게 하기위해 저 범위 중 하나로 H0: μ=45, H1: μ=42라고 정하자. μ는 정규분포를 따르기 때문에 각각의 분포를 그려보면 다음과 같다.

 

 

이 경우 x̅가 작을 수록 비정상적인 표본이기 때문에, x̅ ≤ k 일때 귀무가설을 기각한다고 하자.

유의수준 α는 귀무가설이 사실일 때 귀무가설을 기각하는 제 1종 오류를 범할 확률이기 때문에 저 면적(α)의 확률이라고 할 수 있다.

β는 대립가설이 사실일 때 귀무가설을 채택하는 제 2종 오류를 범할 확률이기 때문에 저 면적(β)의 확률이라고 할 수 있다. 

오류를 최소화해야 더 정확한 결과를 낼 수 있기 때문에 α와 β 모두 줄이는 것이 좋지만

저 그래프를 보면 알 수 있듯이 k를 어떻게 움직이든 둘 중 하나가 줄어들면 다른 하나가 커진다.

따라서 하나를 고정시킨 뒤, 나머지 하나를 최소화하는 방법을 이용한다. 보통 유의수준 α를 고정시킨다.

 

α와 β의 값을 각각 구해보자.

α = PH0( x̅ < 43 ) = P( (x̅ - 45) / 8 / √16  < (43-45) / 8 / √16 )

   = P( Z < -1 ) = 0.1587 => 유의 수준

 

μ = 46일 때 => P( x̅ < 43 ) = P( Z < -1.5 ) = 0.0668 < 0.1587 

≫ 귀무가설의 경계값일 때 P( 제 1종 오류 )가 최대

≫ 모든 상황에 적용하기 위해 최대가 될 때의 값을 유의 수준으로 적용한다.

 

β = PH1( x̅ ≥ 43 ) = P( (x̅-42) / 8 / √16 ≥ (43-42) / 8 / √16 )

   = P( Z ≥ 0.5 ) = 0.1915

검정력(Power) = 1 - β = 0.8085

 

이 두 확률을 동시에 작게 하는 가장 좋은 검정 방법은 같은 α 하에서 β를 가장 작게 만드는 방법이다.

 

3) α의 결정

 

"자료가 비정상적이다" 

-> H0이 사실일 때 그러한 자료를 얻을 가증성이 적어야 함

-> α의 값을 작게 설정해야 함

 

일반적으로 α = 0.05, 0.01, 0.1을 많이 사용한다.

위의 예제에서는 k값을 설정하고 그에 따른 α를 구했지만, 사실 보통의 경우에는 α를 결정한 뒤, 그에 따른 k를 결정한다. 그리고 그 k (임계값)에 따라 기각역과 채택역을 구분한다.

 

4) 가설 검정의 순서

 

  1. 귀무가설과 대립가설의 설정
  2. 검정 통계량 설정
  3. 유의 수준 설정
  4. 기각역 계산
  5. 판정 (통계량이 어느 범위에 존재하는지)

 

5) 모평균의 검정

 

  • 가정: X1, X2, ..., Xn ~ iid N( μ, σ²)이고, σ²이 알려진 경우

  • 가설: H0: μ = μ0  vs  H1: (a) μ > μ0, (b) μ > μ0, (c) μ ≠ μ0

  • x̅ ~ N( μ, σ2²/n ) => 검정 통계량: Z = (x̅ - μ0) / (σ / n) ~ N( 0, 1 ) 

  • 유의 수준을 α라고 하면, 기각역은 (a) Z0 > Zα, (b) Z0 < -Zα, (c) |Z0| > Z(α/2)

 

 

 

예를 들어보자. 기존 치료법의 치료기간은 평균 15일이고 표준편차가 3일인데, 새로운 치료법은 치료기간을 단축시킨다는 의료진의 주장을 확인하고자 한다. 새로운 치료법에 의한 치료기간도 표준편차가 3인 정규분포를 따른다고 가정하자.

  • 가설: H0: μ = 15  vs  H1: μ < 15
  • 검정 통계량: Z = ((x̅-15) / 3 / √n) ~ N( 0, 1 )
  • 유의 수준: α = 0.05 => 기각역: Z < -1.645 (표준정규분포표 참고)
  • 36명의 환자 임의 추출 & 실험 결과 

x̅ = 14 => Z0 = (14-15) / 3 / √36 = -2    (x̅ = 14는 대립가설 범위 내의 한 값)

=> 기각역 안에 존재 -> 귀무가설 기각 -> 치료기간 단축 (대립가설) 입증

 

6) 유의 확률 (P-Value, P-값)

 

관측값에 의해 귀무가설을 기각시킬 수 있는 검정법의 최소 유의 수준

 

위의 예제에서는 임계값 Z와 실제 자료를 표준화하여 나온 Z0값을 비교하여 기각역을 설정했다.

하지만, 보통 정규분포를 따르기 때문에 실제 값보다 그 면적을 구해서 비교하는 것이 더 효율적이다.

즉 Z값을 구할 필요가 없다.

그리고 유의 확률이 그 면적을 의미한다. 

 

 

 

· P - Value < α => 귀무가설 기각 (기각역 면적보다 작음)

· P - Value > α => 귀무가설 기각할 수 없음

 

위의 예제에서 P-값은 P( Z ≤ -2) = 0.0228으로 유의 수준인 0.05보다 작기 때문에 귀무가설을 기각할 수 있다.

'Statistics > 기초통계학' 카테고리의 다른 글

[기초통계학] 단일 모집단의 추론  (0) 2021.01.27

+ Recent posts