'알고리즘' 태그의 글 목록

알고리즘

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 2 2021.08.08
[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 1 2021.08.06
[자료구조] Introduction 2021.04.17

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 2

2021. 8. 8. 01:45

출처 https://www.boostcourse.org/ds214/lecture/102086?isDesc=false

프로젝트로 배우는 데이터사이언스

부스트코스 무료 강의

www.boostcourse.org

1. 당뇨병 데이터셋

https://www.kaggle.com/uciml/pima-indians-diabetes-database

https://www.scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes

* pregnancies : 임신횟수
* glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도
* bloodPressure : 이완기 혈압 (mm Hg)
* skinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값
* insulin : 2시간 혈청 인슐린 (mu U / ml)
* BMI : 체질량 지수 (체중kg / 키 (m)^2)
* diabetesPedigreeFunction : 당뇨병 혈통 기능
* age : 나이
* outcome : 당뇨병인지 아닌지, 768개 중에 268개의 결과 클래스 변수 (0 / 1)는 1이고 나머지는 0이다.

2. 라이브러리 import

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

3. 데이터셋 로드

df = pd.read_csv("diabetes.csv")  #주피터노트북에서 실행 -> 경로 간단
df.shape

9개의 feature가 존재하고, 768개의 데이터가 있다.

df.head()

결측치가 없고 다 숫자로 되어있기 때문에 이 데이터셋은 전처리를 하지 않아도 괜찮다.

4. 학습, 예측 데이터셋 나누기

# 8:2 비율로 구하기 위해 전체 데이터 행에서 80% 위치에 해당되는 값을 구해서 split_count 변수에 담기

split_count = int(df.shape[0] * 0.8) 
split_count

# train, test로 슬라이싱을 통해 데이터 나눔

train = df[:split_count].copy()
train.shape

test = df[split_count:].copy()
test.shape

데이터셋 자체로 학습을 하고, 예측 후 정확도까지 알아보기 위해서 위에서부터 80%는 학습데이터, 나머지 20%는 예측데이터로 분리했다.

80% 지점이 614번째 데이터이기 때문에

학습데이터는 614개,

예측데이터는 154개이다.

5. 학습, 예측에 사용할 컬럼

# feature_names 라는 변수에 학습과 예측에 사용할 컬럼명을 가져옴
# 여러개를 가져왔기 때문에 list 형태로 가져옴

feature_names = train.columns[:-1].tolist()
feature_names

# label_name 에 예측할 컬럼의 이름 담음

label_name = train.columns[-1]
label_name

feature는 이렇게 9개가 있는데, 우리가 예측할 것은 마지막 컬럼인 outcome (당뇨병인지 아닌지) 이기 때문에 뒤에서 두번째 컬럼인 Age까지를 feature_names에 저장하고, 마지막 outcome을 label_name에 저장했다.

6. 학습, 예측 데이터셋 만들기

# 학습 세트 만들기 
# 행렬

X_train = train[feature_names]
print(X_train.shape)
X_train.head()

앞에서 나눈 80%의 학습데이터셋 train에 feature_names 컬럼을 적용하여 학습데이터셋 X_train 을 만들었다.

# 정답 값
# 벡터

y_train = train[label_name]
print(y_train.shape)
y_train.head()

마찬가지로 앞에서 나눈 80%의 학습데이터셋에 label_name 컬럼을 적용하여 학습할 때 정답을 맞추는 데이터셋 y_train을 만들었다.

# 예측에 사용할 데이터셋

X_test = test[feature_names]
print(X_test.shape)
X_test.head()

다음은 앞에서 나눈 20%의 예측데이터셋에 feature_names를 적용하여 학습한 알고리즘에 적용할 예측데이터셋 X_test를 만들었다.

# 예측의 정답값
# 실전에는 없지만, 실전 적용 전 정답을 알고있기 때문에 내가 만든 모델의 성능을 측정해봐야 함

y_test = test[label_name]
print(y_test.shape)
y_test.head()

마지막으로, 예측 모델의 성능을 측정하기 위한 예측 정답 데이터셋을 만들었다.

20% 예측 데이터셋에 label_name을 적용한 데이터셋으로, 실전 예측 문제에는 없지만 이 예제에서는 알고있는 값이기 때문에 모델의 성능을 측정할 때 사용할 것이다.

7. 머신러닝 알고리즘 가져오기

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model

decision tree classifier 알고리즘을 사용할 것이기 때문에 이 알고리즘을 model 변수에 저장해준다.

8. 학습 (훈련)

model.fit(X_train, y_train)

아주 간단하다.

머신러닝 알고리즘.fit(훈련데이터, 정답데이터) 형식이다.

9. 예측

y_predict = model.predict(X_test)
y_predict[:5]

학습이 기출문제와 정답으로 공부를 하는 과정이었다면, 예측은 실전 문제를 푸는 과정이라고 볼 수 있다.

위에서 5개 데이터의 예측 결과를 보자면 이와 같다. 1은 당뇨병, 0은 당뇨병이 아니라는 것이다.

10. 트리 알고리즘 분석

from sklearn.tree import plot_tree

#plot_tree(model, 
#         feature_names = feature_names)  
# 글자로 나옴

# 시각화

plt.figure(figsize = (20, 20))

tree = plot_tree(model, 
                 feature_names = feature_names,
                filled = True,
                fontsize = 10)

# 피처의 중요도 표시 

model.feature_importances_

각 피처의 중요도를 알려준다.

# 피처의 중요도 시각화

sns.barplot(x = model.feature_importances_, y = feature_names)

seaborn을 활용해서 각 피처의 중요도를 시각화했다.

11. 정확도(Accuracy) 측정하기

# 실제값 - 예측값 -> 같은 값은 0으로 나옴
# 여기서 절대값을 씌운 값 = 1 인 값이 다르게 예측한 값임

diff_count = abs(y_test - y_predict).sum()
diff_count

# decision tree 예측할 때마다 다르게 예측할 수 있기 때문에 이 값은 다르게 나올 수 있음
# 항상 같게 하려면 model = DecisionTreeClassifier(random_state = 42)처럼 random_state 지정

우리는 예측 데이터셋의 정답도 알고있기 때문에 모델의 정확도를 측정할 수 있다.

outcome 값은 0 또는 1이기 때문에 실제값에서 예측값을 뺀 값의 절대값이 1인 값이 틀린 것이라고 볼 수 있다.

실제값에서 예측값을 뺀 값들의 합을 (틀린 예측의 수) diff_count 변수에 저장했다.

# 예측의 정확도 구하기 -> 100점 만점에 몇 점인지

(len(y_test) - diff_count) / len(y_test) * 100

예측데이터셋에서 틀린 예측의 수를 뺀 비율로 정확도를 구했더니 약 69%가 나왔다.

decision tree는 예측할 때마다 가지의 수 등의 원인으로 다르게 예측할 수 있다.

이를 고정하려면 알고리즘을 불러올 때 속성에서 random_state 값을 지정해주어야 한다.

# 위처럼 직접 구할 수도 있지만, 미리 구현된 알고리즘을 가져와 사용한다

from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predict) * 100

이건 사이킷런에 미리 구현된 알고리즘으로 정확도를 계산한 것이다. 위와 같은 값이다.

# model 의 score로 점수 계산 (정답값 y_test 알고있을 때)

model.score(X_test, y_test)

이건 model 의 score로 점수를 계산한 것이다. 정답값을 알고있을 때 사용하며, 위에서의 정확도와 같다.

저작자표시 변경금지

'Software > Python' 카테고리의 다른 글

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 1 (0)	2021.08.06

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 1

2021. 8. 6. 07:48

출처 https://www.boostcourse.org/ds214/joinLectures/28155

프로젝트로 배우는 데이터사이언스

부스트코스 무료 강의

www.boostcourse.org

1. Scikit Learn

- 대표적인 파이썬 머신러닝 라이브러리

- classification, regression, clustering, dimensionality reduction, model selection, preprocessing 등 알고리즘

- supervised machine learning

clf = RandomForestClassifier() # 머신러닝 모델 (트리모델)

clf.fit(X_train, y_train) # 학습, x는 학습 데이터, y는 정답

y_pred = clf.predict(X_test) # 예측

clf.score(X_test, y_test) # 확인, 현실 문제에서는 y_test 알 수 없을 것, 하지만 임의로 데이터를 나누어 학습시켰다면 알 수 있음

- unsupervised transfomations

pca = PCA() # 비지도학습 중 차원축소기법

pca.fit(X_train)

X_new = pca.transform(X_test)

- estimator.fit(X, [y])

estimator: 지정해줄 수 있는 알고리즘 모델

fit -> 학습 (비지도학습은 y 없음)

* estimator.predict -> classification, regression, clustering

* estimator.transform -> preprocessing, dimensionality reduction, feature seelction, feature exteaction

2. 데이터 검증

데이터에 알맞는 모델과 파라미터를 찾기 위해 훈련 데이터로 테스트를 진행한다.

1. 데이터를 training data와 test data로 구분한다.

2. cross-validation을 통해 여러 fold로 나눈다.

3. 나눠준 폴더의 개수만큼 훈련을 진행한다.

4. 예를 들어 5개의 폴더로 나누면 fold1부터 5까지 하나씩 test data로 놓고 나머지로 training 후 test data로 성능을 확인한다.

5. 각각의 fold에 있는 점수의 평균을 내서 가장 좋은 점수를 내는 모델과 파라미터를 찾는다.

clf = SVC(파라미터)

clf.fit(X_train, y_train)

3. grid searches

이러한 과정을 거쳐 알맞은 모델과 파라미터를 구한다.

4. 기본 예제

from sklearn imoprt tree
X = [[0, 0], [1, 1]]
y = [0, 1]

clf = tree.DecisionTreeClassifier()
clf.fit(X, y)

clf.predict([[2., 2.]])

clf.predict_proba([[2., 2.]])

결정 트리 분류 모델에 x = [0, 0] 일 때 y = 0이고, x = [1, 1] 일 때 y = 1인 훈련 데이터를 학습시켰다.

그리고 x = [2., 2.]일 때 y값을 예측했더니 1이 나왔다.

estimator.predict_proba 는 예측값을 비율로 출력하는 함수이다.

5. iris dataset 예제

from sklearn.datasets import load_iris
from sklearn import tree
import matplotlib.pyplot as plt

X, y = load_iris(return_X_y = True)
X, y              # decisiontree 알고리즘이 숫자만 읽을 수 있기 때문에 카테고리 데이터 -> 숫자화

사이킷런 라이브러리에 내장되어 있는 아이리스 데이터셋을 불러왔다.

원래는 문자로 된 범주형 데이터지만, decision tree 알고리즘이 숫자만 읽을 수 있기 때문에 숫자로 변환한 것이다.

clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, y)

plt.figure(figsize = (20, 10))
t = tree.plot_tree(clf.fit(X, y), filled= True)

decision tree classifier 를 이용하여 데이터를 학습시킨 트리 모델이다.

이를 통해 중요한 변수가 무엇인지 등을 알 수 있다.

더 그래프를 보기좋게 그리기 위해서 graphviz 라이브러리를 활용할 수 있다. 하지만 설치가 조금 까다롭기 때문에 나중에 다시 해보려고 한다.

저작자표시 변경금지

'Software > Python' 카테고리의 다른 글

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 2 (0)	2021.08.08

[자료구조] Introduction

2021. 4. 17. 00:47

수업 출처) 숙명여자대학교 소프트웨어학부 수업 "자료구조", 유석종 교수님

1. Computer System

- 알고리즘 : 문제를 풀기 위한 명령어들의 모음 (데이터 처리 방법)

- 데이터 : 측정된 값들의 모음

- 자료구조 : 데이터를 효과적으로 저장, 관리, 처리하기 위한 구조체, 방법론

2. Algorithm

- 문제 해결에 필요한 명령어들의 집합

- 조건

- input : 명시적 입력은 없어도 된다. (하지만, 묵시적 입력은 필요하다.)

- output: 하나 이상의 출력이 필요하다.

- definiteness 명확성 : 명령문은 모호하지 않고 명확해야 한다.

- finiteness 유한성 : 명령어의 수는 유한해야 한다.

- effectiveness 유효성 : 명령어는 실행 가능해야 한다.

- 표현 방법 : 수도코드, 자연어, flow chart, 프로그래밍 언어 ..

- 종류 : search, sort, compute, decision ..

- (ex) Prime Numbers

1) n이 소수인지

int prime (int n)
{
    if (n < 2) return 0;
    for (i = 2; i < n; i++)
        if (n % i == 0) return 0;
        
    return 1;
}

2) 2와 n 사이의 모든 소수

int prime2 (int n)
{
    if (n < 2) return 0;
    
    for (i = 2; i < n; i++) {
        prime = 1;
        for (j = 2; j < i; j++) {
            if (i % j == 0) {
                prime = 0;
                break;
            }
        }
        if (prime) printf("%d", i);
    }
}

3. Huffman Coding Tree

- 빈도수에 따른 문자 압축 (요약) 방법

- (ex) "time and tide wait for no man"

- 방법

빈도수 순서로 문자들을 나열하고 빈도수의 합이 증가되는 방향으로 계속 더한다.

더할 땐 값이 같거나 작은 것과 더한다.

각각의 연결 선에 0과 1의 label을 붙여준다. 왼쪽이 0, 오른쪽이 1이다.

가장 위에서부터 각각의 문자까지 내려오면서 label을 읽는다.

예를 들어 e는 29 - 17 - 7- 4- 2 순서대로 내려오기 때문에 0011 의 값을 갖는다.

10101010110 을 읽으면 101 / 0101 / 0110 → not 이 된다.

각 문자가 갖는 이진수 값을 '허프만 코드' 라고 부른다.

허프만 코딩 방법으로 저장한 문자의 저장 공간은 Sum(Freq * bits) 비트가 필요하다.

원래 문자를 저장할 때 필요한 공간은 '문자 수 x 비트(8)' 인데, 허프만 코드를 이용하면 데이터의 비트 수가 줄어들기 때문에 공간 복잡도를 57%나 낮출 수 있다.

4. System Life Cycle

: Requirement → Analysis → Design → Inplementation → Verification → Release (+ improve)

4-1. Requirement

- 프로젝트의 목표를 정의하는 일련의 설계 명세서

- functions, platforms, input, output, constraints, users 등을 정의한다.

- (ex) Reservation system (flight ticket), Billing system (mobile phone, utility), Recruitment agency

4-2. Analysis

- 프로젝트를 여러개의 작은 서브 모듈로 세분화하는 전략이다.

- (ex) ticket reservation system → clients, contents, payment ..

- top-down approach : 주 목표에서 구성 요소까지 계층을 만든다.

- program → subroutines → instructions

- 가장 많이 쓰는 방식이다.

- bottom-up approach : 구성요소들로부터 전체 시스템을 구성하는 방식이다.

4-3. Design

- 각 모듈에 대한 객체와 함수들을 정의한다.

- (ex) clinets → sign up/in, history, contents

4-4. Implementation

- 객체와 알고리즘에 대한 실행 가능한 코드를 작성한다.

- 플랫폼 : Web, Mobile App, Package, Embedded

4-5. Verification

- 알고리즘의 정확성 증명

- testing

- black box test : 오직 input과 output 으로만 테스트

- white box test : black box test + 내부 코드까지 확인

- Debugging

5. Data types

- 객체와 그 객체에 작용하는 관련된 연산자들의 모음

- (ex) Integer data type

- objects : {INT_MIN, ..., -2, -1, 0, 1, 2, ... INT_MAX}

- operations : {+, -, *, /, %, ...}

- INT MAX (4bytes) = 2^31 - 1 = 2,147,483,647

-Built-in data types

- Basic type : char, int, float

- Composite type : array, structure

- Pointer type

- User-defined data type : object type

- sizeof() 함수로 크기 알 수 있다.

- (ex) Factorial

#include <stdio.h>
void factorial (int n);

void main() 
{
    factorial(20);
}

void factorial (int n);
{
    int i, j;
    int total;
    
    for(i = 2; i <= n; i++) {
        total = 1;
        for (j = 2; j <= i; j++) {
            total = total * j;
        }
        printf("%d! = %d\n", i, total);
    }
}

이 코드를 실행하면 12! 까지는 정확한 결과가 나오지만, 그 뒤로는 틀린 결과가 나온다.

total 변수의 자료형인 intrk chleo 2,147,483,647까지만 저장 가능하기 때문이다.

이러한 현상을 오버플로우라고 부르며, 더 큰 자료형을 사용함으로써 해결할 수 있다.

6. Abstract Data Type 추상 자료형 (ADT)

- 사용자 정의 자료형이다.

- 새로운 객체의 속성과 연산자를 정의한다.

- 공통적인 속성과 행동을 갖는 객체들을 자료형으로 정의 → 자료 추상화

- 명세부와 구현부로 이루어진다.

- 명세부 : 객체를 자료형으로 정의 (객체의 속성 선언)

- 구현부 : 객체에 적용 가능한 연산자 함수 정의

- 연산자

- 생성자 : 새로운 객체 생성

- 변형자 : 기존의 객체를 이용하여 새로운 객체 생성

- 참조자 : 기존 객체의 속성값 참조

- 파이썬, C++, 자바에서 추상 자료형인 클래스 지원

- C는 지원하지 않는다.

- (ex) BankAccount 추상 자료형 수도코드

class BankAccount
{
    int account_id;
    int account_type;    // 0: checking, 1: saving
    char owner_name[20];
    float balance = 0;
    
    deposit(amount) {
        balance = balance + amount;
    }
    
    withdraw(amount) {
        balance = balance - amount;
    }
    
    init(name, type, money) {
        owner_name = name;
        account_type = type;
        deposit(money);
    }
}

BankAccount myaccount("Kim", 0, 10000);

- (ex) Natural number 추상 자료형

structure NaturalNum is

    Objects : an ordered subrange of integers [0, INT_MAX]
    
    Functions : for all x, y ∈ NaturalNum, TRUE, FLASE ∈ Boolean and 
                where +, -, <, = are integer operations
    
    NaturalNum Zero() ::= 0
    
    Boolean Is_Zero(x) ::= if (x) return FALSE else return TRUE
    
    NaturalNum add (x, y) ::= if((x + y) <= INT_MAX) return x + y else return INT_MAX
    
    NaturalNum Subtract(x, y) ::= if(x < y) return 0 else return x - y
    
    Boolean Equal(x, y) ::= if(x == y) return TRUE else return FALSE
    
    NaturalNum Successor(x) ::= if(x == INT_MAX) return x else return x + 1
    
end NaturalNum

저작자표시 변경금지

'Software > Data Structures' 카테고리의 다른 글

[자료구조] 연결 리스트 (0)	2021.04.20
[자료구조] 선형 자료구조 (0)	2021.04.18
[자료구조] 알고리즘 성능 분석 (0)	2021.04.17
[자료구조] Recursion 재귀 호출 (0)	2021.04.17
[자료구조] C언어 기초 (0)	2021.04.17

PREV 이전 1 NEXT 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

gnuykob_sw

알고리즘

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 2

1. 당뇨병 데이터셋

2. 라이브러리 import

3. 데이터셋 로드

4. 학습, 예측 데이터셋 나누기

5. 학습, 예측에 사용할 컬럼

6. 학습, 예측 데이터셋 만들기

7. 머신러닝 알고리즘 가져오기

8. 학습 (훈련)

9. 예측

10. 트리 알고리즘 분석

11. 정확도(Accuracy) 측정하기

'Software > Python' 카테고리의 다른 글

[부스트코스] 프로젝트로 배우는 데이터사이언스 Ch 1

1. Scikit Learn

2. 데이터 검증

3. grid searches

4. 기본 예제

5. iris dataset 예제

'Software > Python' 카테고리의 다른 글

[자료구조] Introduction

1. Computer System

2. Algorithm

3. Huffman Coding Tree

4. System Life Cycle

4-1. Requirement

4-2. Analysis

4-3. Design

4-4. Implementation

4-5. Verification

5. Data types

6. Abstract Data Type 추상 자료형 (ADT)

'Software > Data Structures' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역