특성 (1) 썸네일형 리스트형 특성 자동 선택 새로운 특성을 추가할 때나 고차원 데이터셋을 사용할 때. 가장 유용한 특성만 선택하고 나머지는 무시해서 특성의 수를 줄이는 것이 좋다. 모델이 간단해지고 일반화 성능이 올라간다. 지도 학습 방법만 가능. train, test로 나눈 다음 train만 특성 선택에 사용. 1. 일변량 통계 - 개개의 특성과 타깃 사이에 중요한 통계적 관계가 있는지를 계산 - 각 특성이 독립적으로 분산분석을 실시 import pandas as pd # 데이터셋 가져오기 data = pd.read_csv('경로/파일이름.csv', index_col='인덱스로 사용할 컬럼이름') # 데이터셋, X와 y로 나눠주기 y = pd.DataFrame(data['타겟 컬럼이름']) X = data.drop('타겟 컬럼이름', axis=1.. 이전 1 다음