반응형

머신러닝 4

[Sklearn] 파이썬 k-NN 알고리즘(k-최근접 이웃) 예제

지도 학습 알고리즘 중 하나인 k-NN 알고리즘의 파이썬 구현 예제에 대해서 살펴보겠습니다. k-최근접 이웃 알고리즘은 새로운 데이터에 대해서 가장 가까운 기존의 k개 데이터를 살펴 k개 데이터 중 가장 많은 비율을 차지하는 class로 분류하는 분류 알고리즘인데요. 예를 들어, 테스트 데이터에 새로운 사진 A가 들어왔다고 가정해봅시다. k = 9로 정했을 때, 새로운 사진 A에서 9개의 가장 가까운 사진 중 6개가 고양이, 3개가 강아지 라벨이었다면, A는 고양이 사진으로 분류하는 예제라고 볼 수 있겠지요. 파이썬 사이킷런 k-NN 알고리즘 전처리 k-NN 알고리즘을 구현하기 위해서 필요한 간단한 전처리 과정을 먼저 수행하도록 하겠습니다. 먼저, 데이터셋을 불러오고 학습 데이터 셋 및 테스트 데이터 셋..

Python/Sklearn 2021.11.29

[Sklearn] 파이썬으로 선형 회귀 분석하기 예제 (Linear Regression)

이번 포스팅에서는 파이썬 사이킷런 모듈로 선형 회귀 분석을 진행하는 방법에 대하여 간단히 다루어보도록 하겠습니다. 우선, 데이터셋으로는 kaggle의 Bike Sharing Demand 학습 데이터셋을 사용하였습니다. 데이터셋의 생김새는 다음과 같습니다. 여기서는 'season', 'holiday', 'weather', 'temp', 'humidity', 'windspeed' 6개의 정보로 해당 시간대의 자전거 대여수인 'count'를 회귀 모델로 예측하는 선형 회귀 모델을 세운다고 가정해보겠습니다. (숫자 feature만 이용이 가능하며, 아닌 경우 이용하기를 원할 때는 one-hot encoding 등 전처리가 필요합니다.) 파이썬 사이킷런 선형 회귀 모델 분석 과정 우선, 먼저 학습에 사용할 fea..

Python/Sklearn 2021.11.23

[Sklearn] 파이썬 서포트 벡터 머신 분류기(SVM) - SVC 함수 사용법

이번 글에서는 대표적인 머신러닝을 이용한 분류기 중 하나인 서포트 벡터 머신(SVM)을 파이썬 사이킷런에서 구현하고 결과를 확인하는 과정을 간단히 살펴보도록 하겠습니다. 이 글에서는 사이킷런에서 제공하는 기본 데이터셋인 아이리스 꽃 분류 데이터셋을 활용하였습니다. 파이썬 사이킷런 서포트 벡터 머신 분류기 SVM 사전 작업 우선, 모듈을 임포트하고, 아이리스 꽃 분류 데이터셋을 가져오도록 하겠습니다. from sklearn.datasets import load_iris import pandas as pd import numpy as np # 데이터셋 로드 iris = load_iris() df = pd.DataFrame(data= np.c_[iris.data, iris.target] , columns= [..

Python/Sklearn 2021.11.22

[Sklearn] 파이썬 랜덤 포레스트 모델 학습, 하이퍼파라미터 튜닝 - RandomForestClassifier

이번 포스팅에서는 파이썬에서 대표적인 머신러닝 분류기 중 하나인 랜덤 포레스트를 사이킷런에서 사용하는 방법에 대해서 살펴보도록 하겠습니다. Sklearn(사이킷런) 랜덤 포레스트 분류기 kaggle의 타이타닉 데이터셋을 대상으로 사용 예시를 보여드리도록 하겠습니다. 우선 다음 코드처럼 모듈을 임포트 한 뒤, train / test 데이터셋을 분리하도록 하겠습니다. train feature는 Pclass, SibSp, 성별을 사용하는 것으로 가정하겠습니다. 단, 이 모듈에서는 'male', 'female' 등의 텍스트를 feature로 인식할 수 없으므로, one-hot 인코딩을 진행해주도록 하겠습니다.(남성인지 아닌지를 1/0 혹은 True/False로 표현) 이제 위에서 정한 train feature를..

Python/Sklearn 2021.11.17
반응형