반응형

Python/Sklearn 25

테이블 도메인 딥러닝 예측 모델 TabPFN 파이썬 예제

안녕하세요.이번 글에서는 table domain에서 예측 모델로 사용해볼 수 있는 대표적인 딥러닝 모델인TabPFN의 활용 예제를 다루어보도록 하겠습니다. 1. 모듈 설치 및 임포트TabPFN 모델 활용을 위한 모듈 설치를 진행해야 합니다. 이는 다음 명령어로 수행합니다.!pip install tabpfn 설치가 완료되었다면 앞으로 다룰 예제에서 필요한 모듈들을 임포트하도록 하겠습니다.import timeimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitfrom sklear..

Python/Sklearn 2025.09.09

파이썬 UMAP 차원 축소 및 시각화 예제

안녕하세요.이번 글에서는 python에서 대표적인 차원 축소 알고리즘 중 하나인umap을 통해서 차원 축소를 해보고 시각화로 결과를 살펴보는 예제를 다루어 보겠습니다. 모듈 설치UMAP 시각화를 위해서는 umap-learn 모듈의 설치가 필요합니다.다음의 명령어로 쉽게 설치가 가능합니다.!pip install umap-learn 데이터셋 로드 및 정규화이해를 돕기 위하여, 사이킷런에서 제공하는 iris 데이터셋을 대상으로 차원 축소 및 시각화를 해보겠습니다. 먼저, 필요한 모듈들을 import하고 데이터셋 로드 및 정규화를 해보겠습니다.umap 차원 축소 시에는 정규화 과정이 꼭 필요하니 참고하세요.# 0) 모듈 임포트from sklearn.datasets import load_irisfrom skl..

Python/Sklearn 2025.08.18

파이썬 SMOTE 알고리즘 데이터 불균형 해결 예제

Python SMOTE 사용법 파이썬에서 비대칭 데이터 라벨 문제를 해결하는 알고리즘 중 하나인 SMOTE를 사용해보는 예제를 간단하게 다루어보도록 하겠습니다. SMOTE 알고리즘이란? SMOTE는 데이터 불균형 해결 방법 중 적은 수의 라벨 측에 포함된 데이터 샘플 수를 늘리는 대표적인 오버 샘플링 기법 중 하나로, 샘플링된 데이터에 대하여 k-최근접 이웃을 고른 뒤, 해당 점과 이웃 점들을 선분으로 잇고 이 선분들 위에서 임의의 점을 골라 새로운 샘플로 취급하는 알고리즘입니다. SMOTE 파이썬 코드 예제 먼저, 예시 데이터로 사이킷런의 유방암 예측 데이터셋을 불러오도록 하겠습니다. 편의상, 수많은 종류 중 4가지 feature만 골라서 사용하겠습니다. import pandas as pd from s..

Python/Sklearn 2022.12.05

[Sklearn] 파이썬 모델 앙상블 : 배깅 / 부스팅 / 보팅 함수 정리

Python Model Ensemble(Bagging, Boosting, Voting) 파이썬에서 여러 머신러닝 모델의 앙상블을 진행하는 배깅, 부스팅 그리고 보팅과 관련된 사이킷런의 함수들을 간단한 예제를 통하여 이해하기 쉽도록 비교 정리해보도록 하겠습니다. 데이터셋 로드 및 전처리 우선, 이번 글에서는 사이킷런에서 제공하는 iris 데이터셋을 활용하겠습니다. 데이터셋을 불러오고 train / test 셋으로 분리하는 간단한 전처리 코드는 다음과 같습니다. from sklearn.datasets import load_iris import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # 데이터셋 로..

Python/Sklearn 2022.09.25

[Sklearn] 파이썬 feature selection 함수 RFE, RFECV 예제

Python scikit-learn RFE, RFECV 파이썬에서 RFE와 RFECV 함수를 사용하여 feature selection을 진행하는 예제를 다루어보도록 하겠습니다. 데이터셋 로드 및 전처리 우선, 이번 글에서는 사이킷런에서 제공하는 유방암 분류 예측 데이터셋을 사용하겠습니다. 총 30가지 종류의 feature가 있으며, target 정보는 0과 1(악성 / 양성)의 이진 분류입니다. 우선, 데이터셋을 데이터프레임으로 불러오는 코드는 다음와 같습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame(data.data, columns ..

Python/Sklearn 2022.09.24

[Sklearn] 파이썬 ROC 커브, AUC 면적 구하기 예제

Python scikit-learn ROC curve, AUC 파이썬에서 사이킷런을 활용하여 이진 분류 문제의 ROC 커브를 그려보고 AUC 값을 구해보는 방법을 간단한 예제를 통해 알아보도록 하겠습니다. 데이터셋 로드 및 전처리 이번 예제에서는 사이킷런에서 제공하는 기본 데이터셋인 breast cancer 분류 데이터셋을 활용해보겠습니다. 먼저, 아래의 코드로 target class에 대한 정보(0 또는 1이며, 악성/양성 종양 여부 의미)를 포함한 데이터셋을 데이터프레임 형태로 불러오겠습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame..

Python/Sklearn 2022.09.16

[Sklearn] 파이썬 단어 개수 세기 예제 : CountVectorizer 함수

Python scikit-learn word count method 파이썬의 사이킷런 모듈을 활용하여 단어의 개수를 손쉽게 셀 수 있는 CountVectorizer 메소드에 관하여 사용 예제를 간략하게 정리해보도록 하겠습니다. 우선, 아래와 같은 문서들의 리스트가 있다고 가정하고 문서별로 단어 개수를 세보겠습니다. d1 = '바나나 사과 딸기 딸기 참외' d2 = '수박 바나나 딸기 바나나 딸기' d3 = '딸기 수박 참외 사과 사과 수박' d4 = '사과 사과 사과 사과 참외 참외' corpus = [d1, d2, d3, d4] 단어 개수 세기 기본 예시 CountVectorizer를 사용하여 단어 개수 벡터화를 진행해 보겠습니다. 기본 값으로 사용 시 공백 기준으로 단어를 나눠 개수를 카운팅하게 되며..

Python/Sklearn 2022.08.29

[Sklearn] 파이썬 나이브 베이즈 분류기 구현 예제

Python 사이킷런 나이브 베이즈(NB) 분류 모델 학습하기 파이썬에서 scikit-learn의 기능을 활용하여 나이브 베이즈 분류기 학습 진행의 과정을 구현해보는 예제를 다루어보겠습니다. 데이터셋 불러오기 먼저, 이번 글에서 사용할 붓꽃 데이터셋을 불러오도록 하겠습니다. from sklearn.datasets import load_iris import pandas as pd # 데이터셋 로드 iris = load_iris() df = pd.DataFrame(data= iris.data , columns= ['sepal length', 'sepal width', 'petal length', 'petal width']) df['target'] = iris.target df 0, 1, 2로 표시된 3가지 ..

Python/Sklearn 2022.06.13

[Sklearn] 파이썬 Regularization : Lasso, Ridge, ElasticNet 적용하기

파이썬 사이킷런 라쏘, 릿지, 엘라스틱넷 규제 사용 예제 파이썬에서 선형 회귀 등의 머신러닝 모형을 학습할 때, 대표적인 regularization 방법들인 Lasso, Ridge 및 ElasticNet을 적용하는 방법을 간단한 예제를 통하여 정리해보도록 하겠습니다. 기본 사용법 : 선형회귀에서 Lasso, Ridge 및 ElasticNet 규제 적용 기본적으로, 라쏘 등의 규제 방법들은 선형 회귀 모델의 복잡도에 패널티를 부여합니다. 사이킷런의 선형 회귀 모형에 대한 이해가 필요하시다면 아래의 이전 글을 참고하세요. [Sklearn] 파이썬으로 선형 회귀 분석하기 예제 (Linear Regression) 이번 포스팅에서는 파이썬 사이킷런 모듈로 선형 회귀 분석을 진행하는 방법에 대하여 간단히 다루어보도..

Python/Sklearn 2022.06.03

[Sklearn] 파이썬 MNIST 데이터셋 불러오기, 숫자 시각화 예제

파이썬 사이킷런으로 손글씨 숫자 인식 데이터셋 다루기 파이썬에서 손글씨 숫자 인식 데이터셋인 MNIST를 불러오고 데이터를 몇개 뽑아 숫자 글씨의 상태를 시각화해보는 예제를 살펴보도록 하겠습니다. MNIST 데이터셋 로드 MNIST의 각 데이터는 28 * 28 픽셀(총 784개)의 각 위치에 0~255 사이의 정수 값이 저장된 형태입니다. MNIST 전체는 총 7만 장의 사진으로 구성되어 있기에 따라서 데이터프레임으로 불러오게 된다면 행이 7만개이고, 열이 784개로 이루어진 형태를 나타내게 됩니다. 파이썬에서는 sklearn의 fetch_openml 함수로 아래처럼 mnist 데이터를 불러올 수 있습니다. (데이터셋을 불러오는 데에는 수 분 가량이 소요될 수도 있습니다.) from sklearn.dat..

Python/Sklearn 2022.05.31
반응형