수치형 데이터, 범주형 데이터 변환
1. 수치형 데이터 → 범주형 데이터 # Titanic data 불러오기 titanic = pd.read_csv('input/train.csv') titanic['Age_cut'] = 0 # 0~16 / 16~32 / 32~48 / 48~64 / 64~80 구간으로 나누고 새 컬럼을 'A', 'B', 'C', 'D', 'E' 컬럼으로 만들기 titanic['Age_cut'] = pd.cut(titanic.Age, bins=[0, 16, 32, 48, 64, 80], labels=['A', 'B', 'C', 'D', 'E']) # 구분 별 시각화하여 개수 확인하기 titanic.Age_cut.value_counts().to_frame().style.background_gradient(cmap='summer..
데이터프레임 생성
# 컬럼 이름, 값을 직접 입력하여 DataFrame 생성 데이터프레임 = pd.DataFrame({'컬럼1':[값1, 값2], '컬럼2':[값1, 값2]}) # 랜덤 함수를 활용하여 DataFrame 생성 데이터프레임 = pd.DataFrame(np.random.rand(행길이,열길이)) # 컬럼 이름 설정하기 데이터프레임 = pd.DataFrame(np.random.rand(행길이, 열길이), columns=['컬럼1', '컬럼2']) # csv파일 불러오기 # 인덱스 설정은 파일을 읽어올 때만 가능 데이터프레임 = pd.read_csv("파일이름.csv", index_col="인덱스로사용되는컬럼", encoding="euc-kr") # 데이터프레임이 생성된 상태에서 인덱스 설정하기 데이터프레임 = ..
데이터 분석 순서
1. 문제 정의 (Problem identification) - Business 목적 정의 (수익 고려) - 현재 솔루션의 구성 파악 - 지도(분류, 회귀), 비지도, 강화 선택 2. 데이터수집 (Collecting data sets) - Database - File(CSV, XML, JSON) - Web crwaling - IoT sensor data - Survey - 파이썬 패키지 : BeautifulSoup , Selenium, PyMySQL , PyMongo etc. 3. 데이터 전처리 (Preprocessing) - 결측치 처리 : 데이터 삭제, 다른 값으로 대체(최대값, 최소값, 중앙값, 예측모델 활용한 값) - 이상치 처리 : 입력오류(데이터 삭제, 다른 값으로 대체), 자연발생(featu..