본문 바로가기

Programming/Machine Learning

이진 분류

용어

- 이진 클래스 : 양성 클래스(관심 클래스), 음성 클래스

- 거짓 양성 ; false positive, type I error : 잘못된 양성 예측 오류

- 거짓 음성 ; false negative, type II error : 잘못된 음성 예측 오류

 

 

이진 분류의 오차 행렬

 

모든 예측 중 실제와 같은 예측
예측 양성 중 실제 양성 샘플의 수
실제 양성 중 예측 양성이 되는 샘플의 수

 

정밀도는 거짓 양성의 수를 줄이는 것이 목표

재현율은 거짓 음성을 피하는 것이 목표

F1 Score는 정밀도와 재현율을 결합한 지표

 

 

import pandas as pd
# 데이터셋 가져오기
data = pd.read_csv('경로/파일이름.csv', index_col='인덱스로 사용할 컬럼이름')

# 데이터셋, X와 y로 나눠주기
y = pd.DataFrame(data['타겟 컬럼이름'])
X = data.drop('타겟 컬럼이름', axis=1)

from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5, return_train_score=True)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

grid_search.fit(X_train, y_train)

from sklearn.metrics import classification_report
print(classification_report(y_test, grid_search.predict(X_test), target_names=['음성', '양성']))

'Programming > Machine Learning' 카테고리의 다른 글

데이터 전처리  (0) 2020.02.16
파이프라인  (0) 2020.02.16
그리드 서치  (0) 2020.02.16
k-겹 교차검증  (0) 2020.02.16
특성 자동 선택  (0) 2020.02.15