본문 바로가기

Programming

(212)
타이타닉 생존자 예측 분석 목표 - 타이타닉 데이터를 학습해서 생존자/사망자를 예측해보자 - 머신러닝의 전체 과정을 진행해보자. 머신러닝 과정 - 문제정의 - 데이터 수집 - 데이터 전처리 - 탐색적 데이터 분석 - 모델 선택 및 학습 - 모델 평가 1. 문제 정의 - 생존자/사망자를 예측 - Kaggle 경진대회에서 높은 순위를 차지 - 머신러닝 과정 전체를 체험 해보는 예제 2. 데이터 수집 - Kaggle 사이트로부터 train, test 다운로드 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 시각화 라이브러리 Question1 - 타이타닉 train데이터와 test데이터를 변수 train,test에 저..
버섯데이터 분류 목표 - 버섯의 특징을 활용해 독/식용 버섯을 분류 - Decision tree 시각화 & 과대적합 속성 제어 - 특성선택(Feature selection) 해보기 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier # 1. 데이터를 로딩 # 2. 전체 컬럼,행 숫자 파악 # 3. 결측치 파악 # 4. 문제와 답 분리 # 5. 기술통계 -> 범주형데이터 : 갯수,최빈값,종류 # 6. label의 비율을 확인해보자. data = pd.read_csv('data/mushroom.csv') data.head() data.shape data.info..
iris 품종분류 목표 - 붓꽃의 꽃잎 길이, 꽃잎 너비, 꽃받침 길이, 꽃받침 너비 특징을 활용해 3가지 품종을 분류해보자. - KNN 모델의 이웃의 숫자를 조절해보자(하이퍼파라미터 튜닝) from sklearn.datasets import load_iris import pandas as pd import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split from sklearn import metrics iris_data = load_iris() iris_data iris_data.keys() iris_data['data'] iris_data..
BMI 학습하기 목표 - 500명의 키와 몸무게, 비만도 라벨을 이용해 비만을 판단하는 모델을 만들어보자. import pandas as pd import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklearn import metrics # 평가를 위한 모듈 tbl = pd.read_csv('data/bmi_500.csv', index_col='Label') tbl.head() tbl.loc['Normal'] tbl.info() # 전체 row수, 결측치 여부, 컬럼별 정보 tbl.describe() # 기술통계 확인 tbl.index.unique() 각 비만도 등급별로 시각화 def myScatter(label, c..
서울시 구별 CCTV 현황 분석 서울시 구별 CCTV 현황 분석하기 - 서울시 각 구별 CCTV수를 파악해보자. - 인구대비 CCTV비율을 파악해서 순위를 비교해보자. - 인구대비 CCTV의 예측치를 확인하고, CCTV가 부족한 구를 확인해보자. import numpy as np import matplotlib.pyplot as plt from matplotlib import rc rc('font',family='Malgun Gothic') import pandas as pd pd.set_option('display.max_rows',1000) pd.set_option('display.max_columns',1000) pd.set_option('display.max_colwidth',-1) 1. CSV파일 읽기 - 서울시 구별 CCTV..
Matplotlib교통사고데이터실습 import matplotlib.pyplot as plt from matplotlib import font_manager, rc font_name = font_manager.FontProperties(fname = "c:/Windows/Fonts/malgun.ttf").get_name() rc('font', family=font_name) # 차트 한글보이기 import pandas as pd pd.set_option('display.max_rows', 1000) # 생략되는 행 없이 모두 표시 pd.set_option('display.max_columns', 1000) # 생략되는 열 없이 모두 표시 pd.set_option('display.max_colwidth', -1) # 최대 길이에 맞춰 자동 ..
Matplotlib 실습 # 산점도([x값], [y값]) plt.scatter([10,11,14,5,1,8], [4,9,11,13,7,3]) plt.show() # 세로bar차트([x값], [y값]) plt.bar(['서울', "광주","부산"], [10,20,30]) plt.show() # 가로bar차트([y값], [x값]) plt.barh(['서울', "광주","부산"], [10,20,30]) plt.show() # 파이차트 그리기 plt.pie([10, 20, 30], labels = ['서울', "광주", "부산"], autopct = '%1.1f%%') plt.legend() # 범례 plt.show()
DataFrame 실습 import pandas as pd data= pd.read_csv("data/population_number.csv", encoding = "euc-kr") # 한글로 써지면 오류가 생겨 인코딩을 해주어야함 data data[data['2000']