본문 바로가기

Programming/Machine Learning

k-겹 교차검증

train, test 나누는 이유

- 지금까지 본 적 없는 새로운 데이터에 모델이 얼마나 잘 일반화되는지 측정하기 위함

 

교차 검증

- trina, test로 한 번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법

- 모델의 훈련 데이터에 대한 민감 정도를 알 수 있음.

 

k-겹 교차검증

import pandas as pd
# 데이터셋 가져오기
data = pd.read_csv('경로/파일이름.csv', index_col='인덱스로 사용할 컬럼이름')

# 데이터셋, X와 y로 나눠주기
y = pd.DataFrame(data['타겟 컬럼이름'])
X = data.drop('타겟 컬럼이름', axis=1)

# 선형 회귀
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

from sklearn.model_selection import cross_val_score
# 교차 검증으로 모델 평가
scores = cross_val_score(logreg, X, y, cv=교차검증분할개수)
# 모델을 바꿔가며 평가하고 좋은 점수의 모델 고르기
print(scores)

'Programming > Machine Learning' 카테고리의 다른 글

이진 분류  (0) 2020.02.16
그리드 서치  (0) 2020.02.16
특성 자동 선택  (0) 2020.02.15
스케일 조정  (0) 2020.02.15
머신러닝 모델 - 간단한 요약  (0) 2020.02.15