본문 바로가기

Programming/Machine Learning

수치형 데이터, 범주형 데이터 변환

1. 수치형 데이터 → 범주형 데이터

# Titanic data 불러오기
titanic = pd.read_csv('input/train.csv')


titanic['Age_cut'] = 0
# 0~16 / 16~32 / 32~48 / 48~64 / 64~80 구간으로 나누고 새 컬럼을 'A', 'B', 'C', 'D', 'E' 컬럼으로 만들기
titanic['Age_cut'] = pd.cut(titanic.Age, bins=[0, 16, 32, 48, 64, 80], labels=['A', 'B', 'C', 'D', 'E'])


# 구분 별 시각화하여 개수 확인하기
titanic.Age_cut.value_counts().to_frame().style.background_gradient(cmap='summer')



2. 범주형 데이터 수치형 데이터

# One_hot_encoding
더미데이터프레임 = pd.get_dummies(데이터프레임)

 

label encoding : 범주형을 단순 숫자로 변경(의도치 않은 중요도 부여)
one-hot encoding : 범주형은 0과 1로만 변경, 컬럼을 범주 개수만큼 생성

'Programming > Machine Learning' 카테고리의 다른 글

Data sets 개략적 파악  (0) 2020.02.11
컬럼 결합 / 삭제 / 정리하기  (0) 2020.02.11
데이터프레임 컬럼이름 변경하기  (0) 2020.02.11
특정 value 처리하기  (0) 2020.02.11
데이터프레임 생성  (0) 2020.02.10