수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

1. 역행렬

: 정방행렬 A 에 대해서 AB = BA = I 를 만족하는 정방행렬 B, A⁻¹로 표시

 

 

역행렬이 존재하기 위한 조건은 A가 정방행렬이면서 det(A) ≠ 0이어야 한다.

 

* 2차 정방행렬 역행렬 구하는 방법

 

A = [a b; c d]

|A| = ad - bc

A⁻¹ = 1 / (ad - bc) [d -b; -c a]

 

 

2. 역행렬 성질

 

Th3.1 > 정방행렬 A의 역행렬이 존재하는 경우 그 역행렬은 유일하다.

 

Th3.2 > A의 역행렬이 존재하기 위한 필요충분조건은 |A| ≠ 0이다.

 

Th3.3 > A가 가역행렬이면 A⁻¹ 역시 가역이며 (A⁻¹)⁻¹ = A 이다.

 

 

** 가역 = 정칙 = 역행렬 존재

 

Th3.4 > (A⁻¹)T = (AT)⁻¹

 

Th3.5 > A와 B가 각각 정칙이면 AB 역시 정칙이며 다음이 성립한다.

> (AB)⁻¹ = B⁻¹ A⁻¹

> (ABC)⁻¹ = C⁻¹ B⁻¹ A⁻¹

 

Th3.6

> A가 가역행렬일 때 kA도 가역행렬이고 (kA)⁻¹ = 1/k A⁻¹ 이다.

 

> A가 가역행렬일 때 Aⁿ 도 가역행렬이고, (Aⁿ)⁻¹ = (A⁻¹)ⁿ 이다.

 

Th3.7> A가 정칙일 때, PA = QA 이면 P = Q 이다.

 

Th3.8 > Ax = b 에서 A가 정칙이면 x = A⁻¹ b 이다.

→ 연립방정식의 풀이에 활용할 수 있음

 

3. 행렬의 분할

: 행렬을 블록화하여 간단히 나타낼 수 있다.

 

 

 

* 분할행렬의 전치행렬은 각각의 분할된 행렬을 전치한 것과 같다.

 

* 분할행렬의 곱

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 행렬식  (0) 2021.04.13
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

1. 행렬식

: 정사각행렬에 실수값을 대응시키는 함수

 

1-1. 1차원 행렬 행렬식 

det(a11) = a11

 

1-2. 2차원 행렬 행렬식

1-3. n차원 행렬의 행렬식

 

소행렬식과 여인자를 활용하여 라플라스 전개를 통해 구한다.

- 소행렬식 : A의 𝑖번째 행과 𝑗번째 열을 지운 뒤에 남는 행렬을 M𝑖𝑗라고 하면, 이것의 행렬식 det(M𝑖𝑗)를 a𝑖𝑗의 소행렬식이라고 한다.

- 여인자 : (-1)^(𝑖𝑗) |M𝑖𝑗| 를 a𝑖𝑗의 여인자라고 한다.

 

 

Th2.1 > 행렬식의 라플라스 전개

행렬 A (n x n) = (a𝑖𝑗)의 행렬식은 다음과 같이 계산될 수 있다.

 

> (𝑖번째 행의 각 원소 (a𝑖𝑗))와 그 원소의 여인자 ((-1)^(𝑖𝑗) |M𝑖𝑗|) 를 곱해서 더한 것

> (𝑗번째 행의 각 원소 (a𝑖𝑗)와 그 원소의 여인자 ((-1)^(𝑖𝑗) |M𝑖𝑗|) 를 곱해서 더한 것

 

둘 중 하나를 선택해서 계산하면 되고, 어떤 행이나 열을 택해서 라플라스 전개로 행렬식을 구해도 같은 값이 나온다.

따라서 계산이 쉬운 행이나 열을 택하면 되고, 특히 원소값이 0인 원소가 많은 행이나 열을 택하는 것이 좋다.

 

2. 삼각행렬 

- 상삼각행렬 : 주대각선을 기준으로 대각선 아래쪽 항들의 값이 모두 0인 정사각행렬

- 하삼각행렬 : 주대각선을 기준으로 대각선 위쪽 항들의 값이 모두 0인 정사각행렬

 

Th2.2 > 행렬 A (n x n)가 삼각행렬일 때, A의 행렬식은 대각원소들의 곱이다.

det(A) = a11 x a22 x ... x ann

 

Th2.3 > 대각행렬의 행렬식은 대각원소들의 곱이다.

대각행렬은 상삼각행렬이면서 하삼각행렬이다. 따라서 Th2.2가 성립한다.

 

3. 행렬식의 성질

 

Th2.4 > 전치행렬 AT의 행렬식은 원래 행렬 A의 행렬식과 같다.

det(A) = det(AT)

전치해도 마주보는 값은 동일하기 때문이다.

 

Th2.5 > 행렬 A가 0만으로 이루어진 행 또는 열을 갖고 있으면 det(A) = 0이다.

 

<행렬의 기본 연산>

 

1) 두 행을 서로 교환

2) 한 행에 0이 아닌 실수를 곱한다.

3) 한 행에 0이 아닌 실수를 곱하여 다른 행에 더한다.

(행을 열로 바꾼 것도 기본연산)

 

Th2.6 (행을 열로 바꾸어도 모두 성립)

> A의 두 행을 교환하여 행렬 B 를 얻었을 때  det(B) = -det(A)   → 1연산

> A의 한 행에 상수 c를 곱하여 B를 얻었을 때  det(B) = c det(A)  → 2연산

> A의 한 행에 어떤 상수를 곱하여 다른 행에 더해서 B를 얻었을 때  det(B) = det(A) → 3연산

 

Th2.7 > 행렬 A의 두 행(열)이 같거나 한 행(열)이 다른 행의 상수배이면 det(A) = 0이다.

 

행렬식을 구할 때 기본연산을 활용하여 원소값이 0인 원소를 많이 만들거나 삼각행렬 / 대각행렬을 만드는 것이 유리하다.

 

Th2.8 > 행렬 A (n x n)와 B(n x n)가 있을 때, det(AB) = det(A) det(B) 이다.

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬의 기초  (0) 2021.04.13

수업출처) 숙명여자대학교 통계학과 '통계수학' 수업, 윤재은 교수님

 

 

1. 행렬

: 행과 열로 구분지어진 숫자들의 단순한 직사각형 배열

 

A의 (i, j)성분은 a𝑖𝑗로 표시

 

행렬의 표시는 위와 같이 원소를 일일히 보여주는 방식과 아래와 같이 (i, j) 성분에 대한 식을 제시하는 방식이 있다.

a𝑖𝑗 = i + j2 - 1, i = 1, 2, j = 1, 2

 

 

2. 기본이 되는 몇가지 행렬

 

2-1. 정방행렬 : 행의 수와 열의 수가 같은 행렬

2-2. 영행렬 : 원소가 전부 0인 행렬 (Φ)

2-3. 대각행렬 : 정방행렬에서 모든 비대각원소가 0인 행렬

2-4. 단위행렬 (항등행렬) (E or I) : 대각행렬에서 대각원소의 값이 전부 1인 행렬

2-5. 전치행렬 : 행렬 A의 행과 열을 서로 바꾸어 놓은 행렬 (A' or AT)

2-6. 대칭행렬 : A = AT를 만족하는 정방행렬, 주대각원소를 중심으로 원소들이 대칭구조를 갖고 있는 정방행렬

 

3. 벡터 : 한 개의 열 또는 행으로 이루어진 행렬

 

3-1. 열벡터 (x) : n x 1 인 행렬 

3-2. 행벡터 (xT) : 1 x m 인 행렬 

3-3. 영벡터 : 모든 원소가 0인 벡터

 

특징

- 기본적으로 행렬은 열벡터로 표현한다.

- m차원 열벡터와 n차원 행벡터의 곱의 결과는 m x n 행렬이다.

- n차원 행벡터와 n차원 열벡터의 곱의 결과는 실수이다. (스칼라)

- xTy = yTx 가 성립하며, x · y = xTy = yTx 를 두 벡터의 내적이라고 정의한다.

 

4. 행렬의 연산

4-1. 두 행렬 A, B가 같을 조건

 

  • A와 B의 크기가 같다.
  • 같은 위치에 있는 원소들이 모두 동일하다.

 

4-2. 행렬의 합과 차

 

조건 : 두 행렬이 같은 크기여야 한다.

 

A (m x n) = (a𝑖𝑗), B (m x n) = (b𝑖𝑗) 에 대해

 

- A + B = (a𝑖𝑗 + b𝑖𝑗)

- cA = (ca𝑖𝑗)

- (-1)A = -A

- A - B = (a𝑖𝑗 - b𝑖𝑗)

 

Th 1.2 > (A + B)T = AT + BT

 

4-3. 행렬의 곱

 

조건 : AB가 정의되기 위해서는 A의 열의 수와 B의 행의 수가 같아야 한다.

ex) A (2 x 3), B (3 x 5) → AB (2 x 5)

 

AB의 𝑖𝑗 원소는 A의 𝑖번째 행과 B의 𝑗번째 열의 곱으로 계산한다.

특징

- AB ≠ BA 

- AB가 존재하더라도 BA가 존재하지 않을 수 있다.

- AB = O 임에도 불구하고 A ≠ O 이고 B ≠ O 인 행렬 A, B가 존재한다.

 

- AB의 (𝑖, 𝑗) 원소는 A의 𝑖번째 행을 나타내는 벡터와 B의 𝑗 번째 열을 나타내는 벡터의 내적이다.

 

 

Th 1.3 > 행렬 A, B, C가 아래 연산이 성립되는 크기를 가질 때 다음의 규칙이 성립한다.

> A + B = B + A

> A + (B + C) = (A + B) + C

> A(BC) = (AB)C

> A(B + C) = AB + AC

> (A + B)C = AB + BC

 

Th 1.4

> (AB)T = BT AT 

> (ABC)T = CT BT AT

 

Th 1.5 > ATA = O 또는 AAT = O 이면 A = O

 

5. 역행렬

: 정방행렬 A에서 AB = BA = I 가 성립되는 정방행렬 B가 존재하면 B를 A의 역행렬이라 하고, B = A(1) 이라고 표시한다.

 

특징

- 모든 행렬이 역행렬을 갖고 있는 것은 아니며, 존재하면 유일하다.

- AB = I 가 성립하면 BA = I 도 성립한다.

 

 

 

 

'Statistics > 통계수학' 카테고리의 다른 글

[행렬] 행렬의 rank  (0) 2021.04.24
[행렬] 직교성과 정사영  (0) 2021.04.24
[행렬] 벡터의 선형독립과 내적  (0) 2021.04.24
[행렬] 역행렬과 분할행렬  (0) 2021.04.14
[행렬] 행렬식  (0) 2021.04.13

www.acmicpc.net/problem/1152

 

1152번: 단어의 개수

첫 줄에 영어 대소문자와 띄어쓰기로 이루어진 문자열이 주어진다. 이 문자열의 길이는 1,000,000을 넘지 않는다. 단어는 띄어쓰기 한 개로 구분되며, 공백이 연속해서 나오는 경우는 없다. 또한

www.acmicpc.net

 

문제 

 

코드

#include <stdio.h>
#include <string.h>
#include <ctype.h>

int main() {
    char str[1000001];
    int space = 0;
    int word = 0;
    int len;

    gets(str);
    len = strlen(str);

    for (int i = 0; i < len; i++) {
        if (str[i] == ' ')
            space++;
    }

    word = space +1;

    if (len == space) {
        word = 0;
        printf("%d\n", word);
    }

    else {
        if (isspace(str[0]))
            word--;
        if (isspace(str[len-1]))
            word--;
        printf("%d\n", word);
    }
}

'Software > C' 카테고리의 다른 글

[Baekjoon C] 10828 스택  (0) 2021.02.19
[Baekjoon C] 1259 팰린드롬수  (0) 2021.02.18
[Baekjoon C] 10818 최소, 최대  (0) 2021.02.15
[Baekjoon C] 2753 윤년  (0) 2021.01.31
[Baekjoon C] 2884 알람시계  (0) 2021.01.31

www.acmicpc.net/problem/10828

 

10828번: 스택

첫째 줄에 주어지는 명령의 수 N (1 ≤ N ≤ 10,000)이 주어진다. 둘째 줄부터 N개의 줄에는 명령이 하나씩 주어진다. 주어지는 정수는 1보다 크거나 같고, 100,000보다 작거나 같다. 문제에 나와있지

www.acmicpc.net

 

문제

 

코드

#include <stdio.h>
#include <string.h>

int stack[100001];
int count = 0;

void push(int x);
void pop();
void size();
void empty();
void top();

int main() {
    int n, x;
    char order[6];

    scanf("%d", &n);

    for (int i = 0; i < n; i++) {
        scanf("%s", &order);

        if (!strcmp(order, "push")) {
            scanf("%d", &x);
            push(x);
        }

        else if (!strcmp(order, "pop")) pop();
        else if (!strcmp(order, "size")) size();
        else if (!strcmp(order, "empty")) empty();
        else if (!strcmp(order, "top")) top();
        else break;
    }
    return 0;
}

void push(int x) {
    stack[count] = x;
    count++;
}

void pop() {
    if (count != 0) {
        count--;
        printf("%d\n", stack[count]);
        stack[count] = 0;
    }
    else printf("%d\n", -1);
}

void size() {
    printf("%d\n", count);
}

void empty() {
    if (count == 0) printf("%d\n", 1);
    else printf("%d\n", 0);
}

void top() {
    if (count > 0) 
        printf("%d\n", stack[count-1]);
    else printf("%d\n", -1);
}

'Software > C' 카테고리의 다른 글

[Baekjoon C] 1152 단어의 개수  (0) 2021.02.19
[Baekjoon C] 1259 팰린드롬수  (0) 2021.02.18
[Baekjoon C] 10818 최소, 최대  (0) 2021.02.15
[Baekjoon C] 2753 윤년  (0) 2021.01.31
[Baekjoon C] 2884 알람시계  (0) 2021.01.31

www.acmicpc.net/problem/1259

 

1259번: 팰린드롬수

입력은 여러 개의 테스트 케이스로 이루어져 있으며, 각 줄마다 1 이상 99999 이하의 정수가 주어진다. 입력의 마지막 줄에는 0이 주어지며, 이 줄은 문제에 포함되지 않는다.

www.acmicpc.net

 

문제

 

코드

#include <stdio.h>
#include <string.h>

int main() {
    char num[6];
    int len = 0;

    while(1) {
        scanf("%s", &num);

        if (num[0] == '0')
            break;

        if (strlen(num) == 1)
            printf("yes\n");
            len = 0;
            break;

        while (num[len] != '\0') {
            len = strlen(num);
            
            for (int i = 0; i < len/2 ; i++) {
                if (num[i] != num[len - 1 - i]) {
                    printf("no\n");
                    len = 0;
                    break;
                }
                    
                else {
                    if (num[i + 1] == num[len - i - 2]) {
                        printf("yes\n");
                        len = 0;
                        break;
                    }

                    else {
                        printf("no\n");
                        len = 0;
                        break;
                    }
                }
            break;
            }
        break;
        }
    }
    return 0;
}

 

'Software > C' 카테고리의 다른 글

[Baekjoon C] 1152 단어의 개수  (0) 2021.02.19
[Baekjoon C] 10828 스택  (0) 2021.02.19
[Baekjoon C] 10818 최소, 최대  (0) 2021.02.15
[Baekjoon C] 2753 윤년  (0) 2021.01.31
[Baekjoon C] 2884 알람시계  (0) 2021.01.31

www.acmicpc.net/problem/10818

 

10818번: 최소, 최대

첫째 줄에 정수의 개수 N (1 ≤ N ≤ 1,000,000)이 주어진다. 둘째 줄에는 N개의 정수를 공백으로 구분해서 주어진다. 모든 정수는 -1,000,000보다 크거나 같고, 1,000,000보다 작거나 같은 정수이다.

www.acmicpc.net

 

 

#include <stdio.h>

int main() {
    int n, num;
    int min = 1000001;
    int max = -1000001;
    
    scanf("%d", &n);
    
    for(int i = 0; i < n; i++) {
        scanf("%d", &num);
        if (num > max)
            max = num;
        if (num < min)
            min = num;
    }
    
    printf("%d %d", min, max);
}

'Software > C' 카테고리의 다른 글

[Baekjoon C] 1152 단어의 개수  (0) 2021.02.19
[Baekjoon C] 10828 스택  (0) 2021.02.19
[Baekjoon C] 1259 팰린드롬수  (0) 2021.02.18
[Baekjoon C] 2753 윤년  (0) 2021.01.31
[Baekjoon C] 2884 알람시계  (0) 2021.01.31

모든 과정의 출처는 개인적으로 수강 중인 강의에 있습니다. 

 

1. 라인 차트 꾸미기 (하이라이트, 주석)

 

2. 영역 차트, 워드 클라우드, 히스토그램

 

3. 방탄소년단 앨범 워드 클라우드

앨범을 선택하면 그에 따른 워드 클라우드 사진을 보여준다.

워드 클라우드는 파이썬으로 만든 것이다. (강사님이)

 

'Software > Tableau' 카테고리의 다른 글

[Tableau] 기초 시각화 연습  (0) 2021.02.07
[Tableau] 기초 연습  (0) 2021.02.07
[Tableau] 태블로 & 지도 시각화  (2) 2021.01.17

1. 색으로 시각화한 라인 차트

 

 

2. 맵에 시각화한 차트

 

3. 크기로 시각화한 막대 차트

 

4. 원과 색으로 시각화한 파이 차트

'Software > Tableau' 카테고리의 다른 글

[Tableau] 초급 데이터 시각화 활용  (0) 2021.02.07
[Tableau] 기초 연습  (0) 2021.02.07
[Tableau] 태블로 & 지도 시각화  (2) 2021.01.17

0. 단일 모집단의 추론

통계적 추론에서 한 개의 모집단을 추론하는 방법이다.

 

EX) 통계학 관련학과 취업률의 평균이 얼마나 될까?

     평균을 알아보기 위해 표본을 몇 개 추출해야 하는가?

     남녀의 출생성비가 얼마나 될까?

     안정적으로 제품이 생산되고 있는가?

 

1. 모평균

  • 모집단 가정 : N(μ, σ²)                               // 정규성에 대한 가정확인 필요
  • 확률 표본 : X1, X2, ..., Xn ~ iid N(μ, σ²)         // iid: 서로 독립이며 동일한 분포를 가진다. (정규분포)

 

1.1 점추정

μ <= x̅ ~ N( μ, σ²/n ) 

 

(표준화) ( x̅ - μ ) / ( σ / √n ) ~ N( 0, 1 )    => 중심축량 (σ 알 때)

 

σ 모를 때) ( x̅ - μ ) / ( S / √n ) ~ t(n-1)

 

1.2 t-분포

X1, X2, ..., Xn ~ iid N(μ, σ²) 이면, T = ( x̅ - μ ) / ( S / √n ) ~ t(n-1)

 

- 자유도가 n-1 인 t-분포

 : 0을 중심으로 대칭

  정규분포보다 양쪽 꼬리가 두꺼움

  자유도가 커질수록 표준정규분포에 근접

t-분포표

 

정규분포표와는 다르게 자유도와 확률로 구성된 t-분포표이다. 

자유도에 따라 t-분포의 모양이 다르기 때문이다. 

 

이처럼 확률과 자유도를 활용해서 그에 해당하는 값을 찾을 때 이용한다.

tα 값은 구간추정이나 기각역을 설정할 때 임계값으로 활용된다.

 

1.3 구간추정

100(1-α)% 신뢰구간을 구할 때

 

1-α = P( -t(α/2,n-1) ≤ T t(α/2,n-1) )

      = P( -t(α/2,n-1) ( x̅ - μ ) / ( S / √n )  t(α/2,n-1) )

      = P( x̅ - t(α/2,n-1) S / √n ≤ μx̅ + t(α/2,n-1) S / √n )

 

=> [ x̅ - t(α/2,n-1) S / √n, x̅ + t(α/2,n-1) S / √n]

 

 

예제) 통계학 관련학과 취업률 - 42개 과 조사 결과 

 

  • ∑ xi = 2468.4, ∑ xi² = 154975.4

      => x̅ = 58.77, S² = 241.56, S = 15.54

 

  • t(0.025, 41) = 2.020

 

  • 신뢰구간 = [58.77 - 2.02 x 15.54/√42, 58.77 + 2.02 x 15.54/√42] = [53.93, 64.05]

 

1.4 가설검정

  • H0: μ = μ0  vs  H1: (a) μ > μ0, (b) μ > μ0, (c) μ ≠ μ0

  • 검정통계량 : T0 = ( x̅ - μ0 ) / ( S / √n ) ~ t(n-1)

  • 유의수준 α일 때 기각역 : (a) t0 > t(α, n-1), (b) t0 < -t(α, n-1), (c) |t0| > t(α/2, n-1)

 

예제) 통계학 관련학과 취업률

해당년도 전체 대졸자 취업률이 54.5%일 때 통계학과 취업률 평균이 더 높은가?

 

  • H0 : μ = 54.5, H1 : μ > 54.5

  • T = (58.77 - 54.5) / (15.54 / √42) = 1.78 > t(0.05, 41) = 1.683

=> 귀무가설이 기각되었기 때문에 5% 유의수준에서 통계학과 취업률 평균이 더 높다고 볼 수 있다.

 

1.5 정규모집단으로부터 추출된 확률표본 ~ t(n-1) 

=> 자료에 대한 정규성 검정 필요

 

  • 히스토그램, Q-Q plot -> 그림으로 판단한다. (이상치 유무 ∵ x̅, S가 이상치에 민감)

  • Jarque-Bera test, Shapiro-Wilk test 등 ...

     JB = (n/6) (b1 + 1/4 (b2 - 3)² ) = χ²(2)

         - √b1 : 왜도 (기울어짐, 대칭 등의 모양을 나타냄, 대칭일 때 왜도 = 0)

         - b2 : 첨도 (꼬리가 얼마나 두꺼운지 나타냄, 정규분포일 때 첨도 = 3)

 

1.6 정규성을 만족하지 않는 경우

대표본, 비모수적인 방법, 재표집 방법이 있지만, 비모수적인 방법은 '비모수 통계'에서, 재표집 방법은 대학원에서 배운다.

 

[대표본의 경우]

 

  • 표본 크기가 경우 → 중심극한정리에 의해 x̅ N( μ, σ²/n)

  • Z = ( x̅ - μ ) / ( σ / √n ) ≅ N( 0, 1 )

     => T = ( x̅ - μ ) / ( S / √n ) N( 0, 1 )

 

  • 100(1-α)% 신뢰구간 [ x̅ - Z(α/2) S / √n, x̅ + Z(α/2) S / √n ]

  • 검정통계량 : Z0 = ( x̅ - μ0 ) / ( S / √n ) ≅ N( 0, 1 )

 

예제) A 담배에 포함된 평균 니코틴 함유량을 알아보기 위해 100개의 A 담배를 임의추출하여 조사한 결과 평균 함유량이 0.53mg, 표준편차는 0.11mg 으로 나타났다. 실제 평균 니코틴에 대한 95% 신뢰구간은?

 

[0.53 - 1.96 x 0.11 / √100, 0.53 + 1.96 x 0.11 / √100]

= [0.508, 0.552]

 

소비자 단체에서 A 담배에 포함된 니코틴 함유량이 표지에 표시된 0.5mg보다 많다고 주장한다. 위의 결과를 토대로 니코틴 함유량 평균이 표기된 것보다 많은지를 5% 유의수준에서 검정해보자.

 

Z = (0.53 - 0.5) / (0.11 / 10) = 0.03 / 0.011 = 2.727 > 1.645 = Z(0.05)

=> 귀무가설 기각 → 실제 니코틴 함유량은 표기된 0.5mg보다 많다.

 

1.7 모수 추정을 위한 표본크기 추정

  • 표본 수집은 비용, 시간 등의 제약 조건에 영향을 받는다.

  • 표본의 크기는 모수 추정의 정확도 및 신뢰도에 영향을 준다.

  • 신뢰수준 <= 신뢰도

  • 오차범위(δ) (오차: x̅ - μ) <= 정확도

  • 100(1-α)% 신뢰수준에서 허용오차범위가 ±δ 일 때

    P( |x̅ - μ| < δ) = 1-α

 

표본 크기 결정하는 방법

 

예를 들어, σ (=S) = 5, 95% 신뢰수준, 오차범위 ±1.5 일 때

n = (1.96 / 1.5)² x 25 = 42.68  =>  최소 43개의 표본이 필요하다.

 

2. 분산 (표준편차)

  • 모집단 가정 : N(μ, σ²)                               // 정규성에 대한 가정확인 필요

  • 확률 표본 : X1, X2, ..., Xn ~ iid N(μ, σ²)

 

2.1 점추정

  • 모수 σ <= 표본분산 : S² = 1 / (n-1) ∑ (xi - x̅)²

  • 모수 σ² <= 표본표준편차 : S = 1 )/ (n-1) ∑ (xi - x̅)²

  • 중심축량 = (n - 1) S² / σ² ~ χ²(n-1)       // 유도는 '수리통계학'에서

카이제곱분포

 

예를 들어, 16개의 표본으로 σ²의 95% 신뢰구간을 구해보자.

 

정규분포와 t-분포는 0을 중심으로 대칭이기 때문에 0.5를 반으로 나눈 면적을 이용해서 가장 짧은 구간. 구할 수 있었다. 하지만, 카이제곱분포는 비대칭 형태이기 때문에 절반으로 나눈 것보다 더 짧은 구간을 구할 방법이 있다. 그러나 그 값은 구하기 매우 어렵기 때문에 카이제곱분포에서도 절반으로 나눠서 구간을 구한다.

 

그러면 다음과 같이 식을 세울 수 있다.

X² = (n-1) S² / σ² ~ χ²(n-1)

 

P( χ²(0.975, 15) ≤ X² χ²(0.025, 15))  = 0.95

= P( (n-1) S² / χ²(0.025, 15) σ² (n-1) S² / χ²(0.975, 15) )

 

σ²의 100(1-α)% 신뢰구간을 공식으로 나타내면 다음과 같다.

[ (n-1) S² / χ²(α/2, n-1), (n-1) S² / χ²(1-α/2, n-1) ]

 

 

예제) 생산된 제품의 평균 강도보다는 안정적으로 생산되고 있는가에 더 관심이 있어 제품 강도의 표준편차 σ를 추정하기 위해 무작위로 8개를 선택하여 제품강도를 측정했다.

S² = 3.65,  χ²(0.025, 7) = 1.69,  χ²(0.975, 7) = 16.013

 

  • σ²의 95% 신뢰구간

  = [7 · 3.65 / 16.013 , 7 · 3.65 / 1.69]

  = [1.596, 15.122]

 

  • σ의 95% 신뢰구간

  = [√1.596, √15.122]

  = [1.263, 3.889]

 

2.2 가설검정

  • H0: σ² = σ²0  vs  H1: (a) σ² > σ²0, (b) σ² > σ²0, (c) σ² ≠ σ²0
  • 검정통계량 : X² = (n-1) S² / σ²0 ~ χ²(n-1)
  • 유의수준 α일 때 기각역 : (a) X²0 > χ²(α, n-1), (b) X²0 < χ²(1-α, n-1), (c) X² > χ²(α/2, n-1) or X² < χ²(1-α/2, n-1)

앞의 예제) 표준편차가 2 미만일 때 안정적인 품질관리가 유지된다고 할 때 품질관리가 유지되는지 검정하여라.

 

  • H0 : σ = 2 vs H1 : σ < 2  => H0 : σ² = 4 vs H1 : σ² < 4
  • 검정통계량 : X² = (n-1) S² / 4 ~ χ²(n-1)
  • 5%의 유의수준에서 X²  = 7 · 3.65 / 4 = 6.389 > χ²(0.95, 7) = 2.167

 

=> 검정통계량이 기각역에 포함되지 않기 때문에 대립가설이 기각된다.

따라서 품질이 안정적으로 유지되고 있다고 볼 수 없다.

 

3. 모비율 π

  • 표본 크기가 큰 경우 (대표본)
  • 베르누이 확률표본 X1, X2, ..., Xn ~ iid B(π)
  • 성공횟수 X = X1+ ··· + Xn

 

3.1 점추정량

  • 모수 π <= P = X / n : 표본비율

대부분의 교재에서 p와 p^으로 나타내는 것을 여기서는 각각 π와 P로 나타내겠다.

 

표본비율을 활용하기 위해 모집단을 π와 1-π 두 부분으로 나눠서 표본(X1, ···, Xn)을 구해보자.

π에 속한 표본을 1, 1-π에 속한 표본을 0이라고 했을 때 그 합을 X라고 하면, X는 이항분포 B(n, π)를 따른다.

모비율을 추론하기 위해 표본비율을 이용하려고 한다.

 

P = X / n ≅ N( π, π(1-π) / n ) 

 

n이 충분히 크면 중심극한정리에 의해 P가 정규분포에 근사한다. 따라서 위와 같이 나타낼 수 있다.

정규근사를 하는 조건은 nπ ≥ 5, n(1-π) ≥ 25 정도면 적절하다.

표준화를 하면

 

Zp = (P - π) / π(1-π) / n ≅ N(0,1)

이와 같은 식이 나온다.

이때 Zp가 일종의 중심축량이 된다.

 

3.2 구간추정

1-α = P( -Z(α/2) ≤ (P - π) / √π(1-π) / n ≤ Z(α/2) )

      = P( P - Z(α/2) · √π(1-π) / n ≤ πP + Z(α/2) · √π(1-π) / n )

 

이때 π의 표준오차범위에 π가 포함되어있기 때 π 대신 P를 사용한다.

 

=> [ P - Z(α/2) · √P(1-P) / n, P + Z(α/2) · √P(1-P) / n ]

 

예제) 1889년 한 지역에서 73380명의 신생아 중 아들이 38100명이었다. 

이 지역의 아들의 출생비율 π에 대한 95% 신뢰구간을 구해보자.

 

P = 38100 / 73380 = 0.519

SE = √0.519 · 0.481 / 73380 = 0.00184

 

신뢰구간 = [0.519 - 1.96 · 0.0018, 0.519 + 1.96 · 0.0018]

             = [0.5156, 0.5228]

 

3.3 가설검정

  • H0: π = π0  vs  H1: (a) π > π0, (b) π > π0, (c) π ≠ π0
  • 검정통계량 : Z0 = ( P - π0 ) / √π0 · (1-π0) / n ~ N(0, 1)
  • 유의수준 α일 때 기각역 : (a) Z0 > Zα, (b) Z0 < Zα, (c) |Z0| > Z(α/2)

 

앞의 예제) 그 당시 아들의 출생비율(π)이 딸의 출생비율보다 큰지 검정해보자.

 

  • 가설 H0 : π = 0.5 vs H1 : π > 0.5
  • 검정통계량 Z0 = (0.519 - 0.5) / √0.5 · 0.5 / 73380 ~ N(0, 1)
  • 1% 유의수준 -> Z(0.01) = 2.326 < Z0 = 10.41

 

=> 검정통계량이 기각역에 포함되기 때문에 대립가설이 성립한다.

따라서 아들의 출생비율이 더 높았다고 볼 수 있다.

 

3.4 표본크기 결정

  • 오차 : P - π
  • 100(1-α)% 신뢰수준에서 허용오차범위 ±δ

    1-α = P( |P - π| < δ )

 

=> δ = Z(α/2) · √π(1-π) / n

=> n = ( Z(α/2) / δ )² · π(1-π)

 

예를 들어, 95% 신뢰수준이고 표본오차는 ±3.1%인 설문조사라면 최소 1천명의 표본이 필요하다.

 

π에 대한 정보가 없는 보통의 경우에는 모든 π에 대해 성립하도록 n을 결정한다.

n = ( Z(α/2) / δ )² · π(1-π) 이 식에서 π(1-π)는 π = 0.5일 때 가장 크기때문에 π를 모르는 경우 0.5로 정한다. 

 

예제) 95% 신뢰수준에서 오차범위 ±5% (δ = 0.05)인 경우

n = 1/4 · (1.69 / 0.05)² = 384.16 => 최소 385개의 표본이 필요하다.

'Statistics > 기초통계학' 카테고리의 다른 글

[기초통계학] 통계적 추론  (0) 2021.01.16

+ Recent posts