매개변수 (4) 썸네일형 리스트형 장바구니(쿠키) addCookie.jsp main.jsp 장난감 리스트 장난감이 가득하게 포장되었습니다. 게임기가 들어있는 장난감입니다. 블럭이 가득하게 포장되었습니다. 놀이세트가 가득하게 포장되었습니다. 포근한 장난감이 가득하게 포장되었습니다. 내가 찜한 목록 파이프라인 Pipeline - 여러 처리 단계를 하나의 scikit-learn 추정기 형태로 묶어주는 파이썬 클래스 - fit, predict, score 메서드르 제공. - 분류기 같은 지도 학습 모델과 (데이터 스케일 조정 같은) 전처리 단계를 연결. import pandas as pd # 데이터셋 가져오기 data = pd.read_csv('경로/파일이름.csv', index_col='인덱스로 사용할 컬럼이름') # 데이터셋, X와 y로 나눠주기 y = pd.DataFrame(data['타겟 컬럼이름']) X = data.drop('타겟 컬럼이름', axis=1) from sklearn.pipeline import make_pipeline # StandardScaling과 LinearRegression을 동시.. 그리드 서치 관심 있는 매개변수들을 대상으로 가능한 모든 조합을 시도. 일반화 성능을 최대로 높여주는 값을 찾는 것. GirdSearchCV는 교차검증을 사용. - 분류 : 기본값 StratifiedKFold - 회귀 : 기본값 KFold 교차 검증은 어떤 데이터셋에 대해 주어진 알고리즘을 평가하는 방법. 하지만 그리드 서치와 같은 매개변수 탐색 방법과 합쳐서 많이 사용. 많은 사람이 교차검증이라는 용어를 교차검증을 사용한 그리드 서치라는 의미로 주로 사용. GridSearchCV는 메타추정기 (meta-estimator, 다른 추정기를 사용해서 만든 추정기)이다. - fit : 최적의 매개변수를 찾아준다. 교차 검증 성능이 가장 좋은 매개변수로 전체 훈련 데이터셋에 대해 새로운 모델을 자동으로 만든다. - pred.. 머신러닝 모델 - 간단한 요약 최근접 이웃 - 작은 데이터셋일 경우, 기본 모델로서 좋고 설명하기 쉬움. 선형 모델 - 첫 번째로 시도할 알고리즘. - 대용량 데이터셋 가능. - 고차원 데이터에 가능. 나이브 베이즈 - 분류만 가능. - 선형 모델보다 훨씬 빠름. - 대용량 데이터셋과 고차원 데이터에 가능. - 선형 모델보다 덜 정확함. 결정 트리 - 매우 빠름. - 데이터 스케일 조정이 필요 없음. - 시각화하기 좋고 설명하기 쉬움. 랜덤 포레스트 - 결정 트리 하나보다 거의 항상 좋은 성능을 냄. - 매우 안정적이고 강력함. - 데이터스케일 조정 필요 없음. - 고차원 희소 데이터에는 잘 안맞음. 그래디언트 부스팅 결정 트리 - 랜덤 포레스트보다 조금 더 성능이 좋음. - 랜덤 포레스트보다 학습은 느리나 예측은 빠르고 메모리를 조.. 이전 1 다음