train, test 나누는 이유
- 지금까지 본 적 없는 새로운 데이터에 모델이 얼마나 잘 일반화되는지 측정하기 위함
교차 검증
- trina, test로 한 번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법
- 모델의 훈련 데이터에 대한 민감 정도를 알 수 있음.
k-겹 교차검증
import pandas as pd
# 데이터셋 가져오기
data = pd.read_csv('경로/파일이름.csv', index_col='인덱스로 사용할 컬럼이름')
# 데이터셋, X와 y로 나눠주기
y = pd.DataFrame(data['타겟 컬럼이름'])
X = data.drop('타겟 컬럼이름', axis=1)
# 선형 회귀
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
from sklearn.model_selection import cross_val_score
# 교차 검증으로 모델 평가
scores = cross_val_score(logreg, X, y, cv=교차검증분할개수)
# 모델을 바꿔가며 평가하고 좋은 점수의 모델 고르기
print(scores)
'Programming > Machine Learning' 카테고리의 다른 글
이진 분류 (0) | 2020.02.16 |
---|---|
그리드 서치 (0) | 2020.02.16 |
특성 자동 선택 (0) | 2020.02.15 |
스케일 조정 (0) | 2020.02.15 |
머신러닝 모델 - 간단한 요약 (0) | 2020.02.15 |