1. 수치형 데이터 → 범주형 데이터
# Titanic data 불러오기
titanic = pd.read_csv('input/train.csv')
titanic['Age_cut'] = 0
# 0~16 / 16~32 / 32~48 / 48~64 / 64~80 구간으로 나누고 새 컬럼을 'A', 'B', 'C', 'D', 'E' 컬럼으로 만들기
titanic['Age_cut'] = pd.cut(titanic.Age, bins=[0, 16, 32, 48, 64, 80], labels=['A', 'B', 'C', 'D', 'E'])
# 구분 별 시각화하여 개수 확인하기
titanic.Age_cut.value_counts().to_frame().style.background_gradient(cmap='summer')
2. 범주형 데이터 → 수치형 데이터
# One_hot_encoding
더미데이터프레임 = pd.get_dummies(데이터프레임)
label encoding : 범주형을 단순 숫자로 변경(의도치 않은 중요도 부여)
one-hot encoding : 범주형은 0과 1로만 변경, 컬럼을 범주 개수만큼 생성
'Programming > Machine Learning' 카테고리의 다른 글
Data sets 개략적 파악 (0) | 2020.02.11 |
---|---|
컬럼 결합 / 삭제 / 정리하기 (0) | 2020.02.11 |
데이터프레임 컬럼이름 변경하기 (0) | 2020.02.11 |
특정 value 처리하기 (0) | 2020.02.11 |
데이터프레임 생성 (0) | 2020.02.10 |