반응형

sklearn 4

[Sklearn] 파이썬 MNIST 데이터셋 불러오기, 숫자 시각화 예제

파이썬 사이킷런으로 손글씨 숫자 인식 데이터셋 다루기 파이썬에서 손글씨 숫자 인식 데이터셋인 MNIST를 불러오고 데이터를 몇개 뽑아 숫자 글씨의 상태를 시각화해보는 예제를 살펴보도록 하겠습니다. MNIST 데이터셋 로드 MNIST의 각 데이터는 28 * 28 픽셀(총 784개)의 각 위치에 0~255 사이의 정수 값이 저장된 형태입니다. MNIST 전체는 총 7만 장의 사진으로 구성되어 있기에 따라서 데이터프레임으로 불러오게 된다면 행이 7만개이고, 열이 784개로 이루어진 형태를 나타내게 됩니다. 파이썬에서는 sklearn의 fetch_openml 함수로 아래처럼 mnist 데이터를 불러올 수 있습니다. (데이터셋을 불러오는 데에는 수 분 가량이 소요될 수도 있습니다.) from sklearn.dat..

Python/Sklearn 2022.05.31

[Sklearn] 파이썬 t-SNE 차원 축소 시각화 예제

Python tsne 이용 2차원, 3차원 시각화 안녕하세요. 이번 글에서는 파이썬 사이킷런 라이브러리를 이용하여 t-SNE로 2차원 혹은 3차원으로 데이터 차원을 축소한 상태의 시각화를 진행하는 방법에 대해서 살펴보겠습니다. t-SNE 시각화 사용 이유, 장점 데이터의 분포를 살펴보는 과정에서 처음에 각 class의 분포를 시각화를 통하여 개략적으로 살피는 것이 도움이 많이 됩니다. 그러나, feature가 4종류 이상인 경우, 4차원 이상의 데이터는 직접 시각화가 어렵습니다. 따라서, 보통 시각화가 편리한 2차원이나 3차원으로 차원 축소를 진행 후, 실제 feature가 아닌 축소된 주성분을 기준으로 분포를 간접적으로 시각화하게 됩니다. 이 과정에서, 차원 축소 방법으로는 PCA, t-SNE 등 방법..

Python/Sklearn 2022.02.10

[Sklearn] 파이썬 로지스틱 회귀분석 예제(사이킷런 유방암 데이터셋)

파이썬 사이킷런 로지스틱 회귀분석 이번 글에서는 사이킷런의 유방암 데이터셋을 활용하여, 로지스틱 회귀 모델을 학습시켜보고, 성능 평가까지 진행하는 예제를 간단히 살펴보도록 하겠습니다. 사이킷런 유방암 데이터셋 불러오기 유방암 데이터셋을 불러오고, 데이터프레임으로 만드는 예시 코드입니다. 총 30가지 종류의 feature가 있지만, 여기서는 대표적으로 4가지 feature만 사용하여 로지스틱 모델 학습을 진행해보도록 하겠습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame(data.data, columns = data.feature_names..

Python/Sklearn 2022.01.12

[Sklearn] K-means 클러스터링 (K-평균 알고리즘) 파이썬 구현 + 시각화, Elbow Method

이번 글에서는 비지도 학습의 대표적 알고리즘인 K-means Clustering을 파이썬 사이킷런에서 구현해보는 예제를 다루어보겠습니다. 클러스터링 데이터 불러오기 먼저, 데이터를 불러오도록 하겠습니다. 이번 글에서는 kaggle의 Mall Customers Clustering Analysis 데이터 셋을 사용했습니다. 데이터프레임의 생김새는 아래와 같습니다. 저희는 이 중에서 Annual Income 정보와 Spending Score 정보 두 가지만을 이용하여 고객들을 클러스터링 해보도록 하겠습니다. K-평균 군집화 알고리즘 전처리 먼저, 필요한 column만 골라낸 뒤에 k-means 클러스터링에 필수적인 정규화를 진행해보도록 하겠습니다. 여기서는 각 column의 최소값을 0, 최대값을 1에 매핑한..

Python/Sklearn 2021.12.06
반응형