반응형

Python 380

[Pandas] 데이터프레임 정렬하기 : sort_values, sort_index 함수

파이썬 판다스 정렬 함수 : sort_values() 안녕하세요. 이번 글에서는 판다스에서 데이터프레임을 정렬하는 함수인 sort_values 함수의 사용법에 대해서 간단히 다루어보겠습니다. 우선, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd import numpy as np a = {'A' : [1, 3, 2, 2, 3, 4], 'B' : ['a', 'b', 'e', 'a', 'd', 'c'], 'C' : [np.nan, 1.5, -0.3, np.nan, 4.2, 0.0]} df = pd.DataFrame(a) df A열은 int형, B열은 str형, C열은 float형 자료형임을 가정하겠습니다. sort_values 기본 예시 : 열 1개 기준 정렬 가장 기..

Python/Pandas 2021.12.23

[Pandas] 파이썬 엑셀 파일 다루기 : read_excel, to_excel

파이썬 판다스 : 엑셀 파일로 데이터프레임 생성 안녕하세요. 이번 포스팅에서는 파이썬 엑셀 파일에서 csv 등 다른 파일로 변환 없이 바로 데이터프레임을 생성하여 다룰 수 있는 판다스의 read_excel 함수에 대해서 알아보고, 작업한 데이터프레임을 엑셀 파일로 다시 내보낼 수 있는 to_excel 함수도 다뤄보겠습니다. 엑셀 파일 가져오기 함수 : read_excel 먼저, 이번 예시에서는 다음과 같은 student.xlsx 파일이 있다고 가정해보겠습니다. 내부 양식이 더 복잡하거나 셀 내에 함수가 들어있어도 상관은 없으며, 시트가 여러개인 경우나 행, 열이 첫 셀부터 시작하지 않는 경우는 뒷 부분에서 다루어보도록 하겠습니다. 일단, 데이터프레임으로 가져오는 방법은 간단합니다. pd.read_exce..

Python/Pandas 2021.12.22

py 파일 import 방법, if __name__ == '__main__' 의미, Colab에서 py 파일 가져오기

py 파일 import 다른 py 파일 내에 작성된 함수나 클래스를 가져오고 싶은 경우가 있을 것입니다. 또한, 작성된 코드에서 if __name__ == '__main__' 이라는 부분을 많이 보셨을 수 있는데요. 이번 글에서는 파이썬 작업의 기초가 되는 py 파일 import에 대해서 간단한 예제를 보며 이해해보는 시간을 가져보도록 하겠습니다. 예를 들어, 다음과 같은 코드가 example.py 파일에 저장되었다고 가정해보겠습니다. def double(x): return 2 * x def triple(x): return 3 * x print("10의 두 배는?", double(10)) print("10의 세 배는?", triple(10)) 이제 다른 py 파일이나 ipynb 파일에서 위의 exampl..

파이썬 문자열 대표 함수 총정리, 코드 예시

파이썬 문자열 대표 함수 정리 안녕하세요. 이번 포스팅에서는 파이썬에서 문자열을 다룰 수 있는 함수들 중 대표적으로 많이 사용되는 몇 가지 함수들에 대해 정리를 해보는 시간을 가져보겠습니다. 문자열 대/소문자 변환 : upper, lower, title, capitalize 먼저, 문자열의 대/소문자를 변환할 수 있는 대표 함수들입니다. upper은 모든 문자를 대문자로, lower은 모든 문자를 소문자로, title은 각 단어의 첫 글자를 대문자로, 나머지는 소문자로, 그리고 capitalize는 첫 글자만 대문자로, 나머지는 소문자로 바꿔줍니다. 영단어 외의 다른 문자는 바뀌지 않고 반환됩니다. 사용 예시 결과를 살펴보도록 하겠습니다. title과 capitalize 함수의 사용 결과를 특히 눈여겨 ..

[Numpy] 넘파이 랜덤 추출 함수 정리 : rand, random, randn, randint, choice, seed

넘파이 랜덤 추출 모듈 : np.random 함수 정리 이번 포스팅에서는 랜덤 추출시 많이 사용하는 np.random 모듈의 대표적인 함수들인 rand, random, randn, randint, choice 그리고 seed를 정하는 방법에 대하여 정리해보는 시간을 가지도록 하겠습니다. 0~1 사이 균일 분포 추출 함수 : rand, random 가장 먼저, 기본적으로 0~1 사이의 실수 값들을 균일 분포에서 추출해내는 rand와 random 함수에 대해서 살펴보겠습니다. rand함수의 사용법은 간단합니다. np.random.rand()로 작성하면 값 1개가 추출되고, np.random.rand()의 괄호 내에 dimension을 적으면, 해당 dimension을 가진 넘파이 array가 생성되며, 추출..

Python/Numpy 2021.12.13

[Numpy] 배열 쌓기 : np.hstack, np.vstack, np.concatenate 차이 비교

넘파이 배열 쌓기 함수 : np.hstack, np.vstack, np.concatenate 비교 안녕하세요. 이번 글에서는 넘파이 array를 원하는 방향으로 쌓을 수 있는 np.hstack, np.vstack 그리고 np.concatenate의 기능 차이를 비교하고 실제 예시를 통하여 이해해보는 과정을 다루어보려고 합니다. Numpy array 수평방향 쌓기 : np.hstack 먼저, np.hstack 함수를 통하여 두 배열을 쌓아보도록 하겠습니다. 먼저, 아래 코드처럼 간단하게 2 * 2 배열 두 개를 선언해보도록 하겠습니다. import numpy as np a = np.array([[1, 2], [3, 4]]) b = np.array([[8, 7], [6, 5]]) 이제, 이 두 배열을 수평방..

Python/Numpy 2021.12.12

파이썬 True로 인정되는 경우 정리, 논리, 비트 및 삼항 연산자

파이썬 연산자 정리, 참으로 인정되는 케이스 요약 이번 포스팅에서는 파이썬에서 True / False로 인정되는 케이스 정리와 연산자의 심화된 케이스인 논리 연산자, 비트 연산자 그리고 삼항 연산자의 사용 방법과 예시에 대해서 다루어보도록 하겠습니다. 파이썬 True / False 인식 경우의 수 먼저 파이썬에서 참 / 거짓으로 인식하는 케이스는 boolean 자료형이 아닌 경우에도 많이 있는데요, 아래 표와 같이 정리를 할 수 있습니다. 이를테면, 숫자형은 0이 아닌 모든 수는 참, 0은 거짓으로 인정되고, 문자열, 리스트 등 자료형은 원소가 1개라도 있으면 참, 비었으면 거짓으로 인정됩니다. 물론 파이썬에서 지원하는 boolean 자료형 True / False가 가장 기본적으로 사용되지만, if, w..

파이썬 replace 함수 사용 case 정리, 예시

파이썬 문자열(string) 자료형을 다룰 때, 유용하게 사용되는 replace 함수의 다양한 사용 예시를 이해하기 쉽게 정리해보도록 하겠습니다. 파이썬 replace 함수 : 기본 예시 replace 함수의 사용법은 간단합니다. string0.replace(string1, string2) 로 지정하면, string0 내의 string1 문자열을 모두 찾아서 string 2 문자열로 바꿔줍니다. 위에서 a혹은 ab가 z, zzz 등으로 바뀐 예시를 보시면 이해가 쉬울 것입니다. replace는 한 글자, 혹은 여러 글자 모두에 적용이 가능하며, 빈 문자열로 바꾸는 것 또한 가능합니다.(특정 문자열 지움) 다음 예시를 살펴보겠습니다. a = 'abcde abcde abcde' # a를 지우는 효과 prin..

[Sklearn] K-means 클러스터링 (K-평균 알고리즘) 파이썬 구현 + 시각화, Elbow Method

이번 글에서는 비지도 학습의 대표적 알고리즘인 K-means Clustering을 파이썬 사이킷런에서 구현해보는 예제를 다루어보겠습니다. 클러스터링 데이터 불러오기 먼저, 데이터를 불러오도록 하겠습니다. 이번 글에서는 kaggle의 Mall Customers Clustering Analysis 데이터 셋을 사용했습니다. 데이터프레임의 생김새는 아래와 같습니다. 저희는 이 중에서 Annual Income 정보와 Spending Score 정보 두 가지만을 이용하여 고객들을 클러스터링 해보도록 하겠습니다. K-평균 군집화 알고리즘 전처리 먼저, 필요한 column만 골라낸 뒤에 k-means 클러스터링에 필수적인 정규화를 진행해보도록 하겠습니다. 여기서는 각 column의 최소값을 0, 최대값을 1에 매핑한..

Python/Sklearn 2021.12.06

[Matplotlib] seaborn 이용 파이썬 box plot 그리기

파이썬 seaborn box plot 예시 코드 : sns.boxplot 함수 이번 글에서는 데이터의 분포를 한 눈에 살펴볼 수 있는 box plot을 파이썬의 seaborn 라이브러리를 이용해서 시각화해보도록 하겠습니다. 데이터셋은 kaggle 자전거 수요 예측에서 사용한 데이터 중 train data에 해당하는 csv 파일을 사용하였습니다. 이 데이터프레임이 df 변수에 저장되어있다고 가정하겠습니다. 먼저, 가장 기본형의 그래프부터 살펴보도록 하겠습니다. 자전거 대여 대수의 전체 분포를 살펴보겠습니다. import matplotlib.pyplot as plt import seaborn as sns # 세로 그래프 plt.figure(figsize = (4, 7)) sns.boxplot(y = 'cou..

Python/Matplotlib 2021.12.05
반응형