데이터프레임 생성
# 컬럼 이름, 값을 직접 입력하여 DataFrame 생성 데이터프레임 = pd.DataFrame({'컬럼1':[값1, 값2], '컬럼2':[값1, 값2]}) # 랜덤 함수를 활용하여 DataFrame 생성 데이터프레임 = pd.DataFrame(np.random.rand(행길이,열길이)) # 컬럼 이름 설정하기 데이터프레임 = pd.DataFrame(np.random.rand(행길이, 열길이), columns=['컬럼1', '컬럼2']) # csv파일 불러오기 # 인덱스 설정은 파일을 읽어올 때만 가능 데이터프레임 = pd.read_csv("파일이름.csv", index_col="인덱스로사용되는컬럼", encoding="euc-kr") # 데이터프레임이 생성된 상태에서 인덱스 설정하기 데이터프레임 = ..
데이터 분석 순서
1. 문제 정의 (Problem identification) - Business 목적 정의 (수익 고려) - 현재 솔루션의 구성 파악 - 지도(분류, 회귀), 비지도, 강화 선택 2. 데이터수집 (Collecting data sets) - Database - File(CSV, XML, JSON) - Web crwaling - IoT sensor data - Survey - 파이썬 패키지 : BeautifulSoup , Selenium, PyMySQL , PyMongo etc. 3. 데이터 전처리 (Preprocessing) - 결측치 처리 : 데이터 삭제, 다른 값으로 대체(최대값, 최소값, 중앙값, 예측모델 활용한 값) - 이상치 처리 : 입력오류(데이터 삭제, 다른 값으로 대체), 자연발생(featu..