본문 바로가기

Programming/Machine Learning

(36)
특정 value 처리하기 위치 잘라오기 # Integer type으로 잘라오기 데이터프레임.iloc[행시작순서번호:행끝순서번호, 열시작순서번호:열끝순서번호] # 인덱스 칸을 비우면 끝 인덱스를 의미함 # 문자 type으로 잘라오기 데이터프레임.loc['행시작인덱스이름':'행끝인덱스이름', '열시작컬럼이름':'열끝컬럼이름'] DataFrame[컬럼명]으로 활용 데이터프레임[컬럼] = [값1, 값2, 값3, 값4] 지정된 인덱스 삭제 # 지정한 행 인덱스 번호로 삭제 데이터프레임.drop([행인덱스번호], inplace=True) # 지정한 열 컬럼이름으로 삭제 데이터프레임.drop([컬럼이름], axis=1) 중복되지 않는 값 확인 # 컬럼을 시리즈로 불러오기 시리즈 = 데이터프레임.컬럼이름 시리즈.unique() 지정 값('A'..
데이터프레임 생성 # 컬럼 이름, 값을 직접 입력하여 DataFrame 생성 데이터프레임 = pd.DataFrame({'컬럼1':[값1, 값2], '컬럼2':[값1, 값2]}) # 랜덤 함수를 활용하여 DataFrame 생성 데이터프레임 = pd.DataFrame(np.random.rand(행길이,열길이)) # 컬럼 이름 설정하기 데이터프레임 = pd.DataFrame(np.random.rand(행길이, 열길이), columns=['컬럼1', '컬럼2']) # csv파일 불러오기 # 인덱스 설정은 파일을 읽어올 때만 가능 데이터프레임 = pd.read_csv("파일이름.csv", index_col="인덱스로사용되는컬럼", encoding="euc-kr") # 데이터프레임이 생성된 상태에서 인덱스 설정하기 데이터프레임 = ..
결측치 처리하기 EDA 과정에서 수행하기 좋은 결측치 시각화 Seaborn 결측치 시각화 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # seaborn은 matplotlib과 세트 # heatmap 결측치 시각화 %matplotlib inline sns.heatmap(데이터프레임.isnull(), cbar=False) 결측치 처리하기 10% 미만 : 삭제 또는 대치 10 ~ 20% : Hot deck 또는 Regression 또는 Model based imputation 20 ~ 50% : Regression 또는 Model based imputation 50% 이상 : 해당 변수(컬럼) 제거 1. ..
데이터 분석 순서 1. 문제 정의 (Problem identification) - Business 목적 정의 (수익 고려) - 현재 솔루션의 구성 파악 - 지도(분류, 회귀), 비지도, 강화 선택 2. 데이터수집 (Collecting data sets) - Database - File(CSV, XML, JSON) - Web crwaling - IoT sensor data - Survey - 파이썬 패키지 : BeautifulSoup , Selenium, PyMySQL , PyMongo etc. 3. 데이터 전처리 (Preprocessing) - 결측치 처리 : 데이터 삭제, 다른 값으로 대체(최대값, 최소값, 중앙값, 예측모델 활용한 값) - 이상치 처리 : 입력오류(데이터 삭제, 다른 값으로 대체), 자연발생(featu..