본문 바로가기

Min

(3)

데이터 전처리 1. 결측치 처리 전략 NaN 데이터 모두 삭제 (complete drop) 데이터가 없는 최소의 개수 등의 규칙을 정해 삭제 데이터가 거의 없는 feature는 feature 자체를 삭제 최빈값, 평균값으로 NaN을 보간 KNN 같은 방법을 사용하여 근사 instance의 값으로 보간 # 결측치 확인하기 # nan 값이 얼마나 있는지 column별로 확인 df.isnull().sum() # 전체 data 개수 대비 NaN의 비율 df.isnull().sum() / len(df) # 결측치가 있는 row 삭제 # 튜플에서 데이터가 하나라도 없으면 삭제 df = df.dropna() # 모든 데이터가 NaN일 때만 삭제 df = df.dropna(how='all') # column을 기준으로 nan 값이 ..

스케일 조정 데이터 전처리 과정 신경망, SVM 같은 알고리즘은 데이터 스케일에 매우 민감하다. 알고리즘들에 맞게 데이터의 특성 값을 조정 스케일의 조정효과는 크다. 1. StandardScaler - z-score 구하기 (평균=0, 분산=1) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) 2. MinMaxScaler - 모든 특성이 정확하게 0과 1 사이로 위치 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() X_train_scaled = scaler.fit_tran..

Data sets 개략적 파악 # value수, 평균, 표준편차, 최대값, 최소값, 사분위 수 출력 print(데이터프레임.describe()) # 데이터프레임 정보 확인하기 print(데이터프레임.info()) # 데이터프레임 크기 확인하기 print(데이터프레임.shape) # 데이터프레임 행 갯수 확인하기 print(데이터프레임.shape[0]) # 데이터프레임 열 갯수 확인하기 print(데이터프레임.shpae[1]) # 히스토그램 컬럼별 그래프 보기 데이터프레임.hist(bins=50, figsize=(20,15)) # 상관관계 수치 보기 데이터프레임.corr()

이전 1 다음

티스토리툴바