반응형

Python 377

[Pandas] 파이썬 데이터프레임 랜덤 샘플링 방법 : df.sample

Python의 판다스 모듈로 데이터프레임의 행들을 랜덤 추출할 수 있는 df.sample 기능에 대하여 사용 예제를 정리해보도록 하겠습니다. 이해를 돕기 위하여 아래의 데이터프레임 df에 대하여 행 샘플링을 진행해 보겠습니다. import pandas as pd df = pd.DataFrame({"이름" : ["AAA", "BBB", "CCC", "DDD", "EEE", "FFF", "GGG", "HHH", "III", "JJJ"], "반" : [1, 1, 1, 1, 1, 2, 2, 2, 2, 2], "점수" : [67, 100, 12, 85, 13, 92, 27, 5, 100, 98]}) df 특정 개수 샘플링 df.sample(n) 형태로 간단하게 n개의 행들을 임의 추출하는 것이 가능합니다. 여기서..

Python/Pandas 2022.09.27

[Numpy] 파이썬 eigenvalue, eigenvector 구하기 : np.linalg.eig

Python에서 주어진 배열의 고윳값(eigenvalue)와 고유벡터(eigenvector)를 쉽게 찾을 수 있는 넘파이 모듈 내 eig 함수에 대하여 사용법 예제를 살펴보겠습니다. np.linalg.eig 함수 기본 사용법 (n, n) 형태의 shape를 가지는 2차원 정방행렬에 대하여 np.linalg.eig(행렬) 형태로 바로 적용해주시면 됩니다. output은 eigenvalue를 모은 리스트, eigenvector를 모은 행렬 순서로 반환되며 각 i번째 고유값에 해당하는 고유벡터는의 i번째 열벡터에 해당되는 점을 참고해주세요. import numpy as np A = np.array([[1, 0, 1], [0, 1, 1], [1, 1, 0]]) A_eig_val, A_eig_vec = np.li..

Python/Numpy 2022.09.27

파이썬 한글 또는 영문만 추출하기 / 제거하기

Python에서 정규표현식을 활용하여 한글 혹은 영어만 남기거나 제거하는 코드를 간략하게 정리해 보겠습니다. 한글만 추출, 제거 re.sub 함수 내 정규표현식에서 자모는 ㄱ-ㅣ, 온전한 글자는 가-힣으로 커버하며, 아래와 같이 ^ 유무의 차이로 한글만 남기기 혹은 한글만 제거를 모두 수행할 수 있습니다. 또한, 공백의 포함/제거 여부도 \s 포함 여부로 같이 조정할 수 있습니다. import re my_str = "안녕하세요 ㅎㅎ. Hello World! 12345?" kor_str = re.sub(r"[^ㄱ-ㅣ가-힣\s]", "", my_str) # 한글 + 공백만 남기기 not_kor_str = re.sub(r"[ㄱ-ㅣ가-힣]", "", my_str) # 한글만 제거하기 not_zamo_str = ..

Python/Utils 2022.09.26

[Sklearn] 파이썬 모델 앙상블 : 배깅 / 부스팅 / 보팅 함수 정리

Python Model Ensemble(Bagging, Boosting, Voting) 파이썬에서 여러 머신러닝 모델의 앙상블을 진행하는 배깅, 부스팅 그리고 보팅과 관련된 사이킷런의 함수들을 간단한 예제를 통하여 이해하기 쉽도록 비교 정리해보도록 하겠습니다. 데이터셋 로드 및 전처리 우선, 이번 글에서는 사이킷런에서 제공하는 iris 데이터셋을 활용하겠습니다. 데이터셋을 불러오고 train / test 셋으로 분리하는 간단한 전처리 코드는 다음과 같습니다. from sklearn.datasets import load_iris import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # 데이터셋 로..

Python/Sklearn 2022.09.25

[Sklearn] 파이썬 feature selection 함수 RFE, RFECV 예제

Python scikit-learn RFE, RFECV 파이썬에서 RFE와 RFECV 함수를 사용하여 feature selection을 진행하는 예제를 다루어보도록 하겠습니다. 데이터셋 로드 및 전처리 우선, 이번 글에서는 사이킷런에서 제공하는 유방암 분류 예측 데이터셋을 사용하겠습니다. 총 30가지 종류의 feature가 있으며, target 정보는 0과 1(악성 / 양성)의 이진 분류입니다. 우선, 데이터셋을 데이터프레임으로 불러오는 코드는 다음와 같습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame(data.data, columns ..

Python/Sklearn 2022.09.24

TypeError: argument of type 'int' is not iterable 원인, 해결법

개요 숫자 5가 주어진 정수 내에 포함되어 있는지 판단하기 위하여 아래와 같은 조건문을 작성했다고 가정해보도록 하겠습니다. a = 135 if 5 in a: print('5가 포함되어 있습니다.') # 결과 TypeError: argument of type 'int' is not iterable 원인 인덱싱이 가능한 리스트, 문자열 등 자료형이나 원소를 순회할 수 있는 generator 자료형과 같은 경우는 in 구문으로 원소 포함 여부를 체크할 수 있지만, 정수, 실수 등과 같은 자료형은 순회하면서 "2번째로 오는 값이 무엇인가?" 등을 정의할 수 있는 자료형이 아니기에 in 구문으로 원소 포함 여부를 체크할 수 없어서 나타나는 오류입니다. 해결법 포함 여부를 in 구문으로 찾고 싶다면 문자열 등 순회..

Python/Debugging 2022.09.22

파이썬 문자열 인덱싱, 슬라이싱 방법 총정리

python의 string 자료형에서 일부를 추출하는 인덱싱과 슬라이싱에 대하여 경우의 수를 총망라하여 이해하기 쉽게 정리해보도록 하겠습니다. 파이썬 문자열 인덱싱 방법 인덱싱은 문자열 전체에서 특정 위치에 해당하는 1글자만을 가져오는 과정을 의미합니다. 기본 인덱싱 방법 기본적으로 문자열[인덱스 위치 번호] 형태로 해당 위치의 글자를 가져오게 되는데 이 때 가장 앞 문자의 인덱스 번호는 0이 기준이 되는 점을 유의해주세요. 대표적인 문자열 인덱싱 예시는 아래와 같습니다. a = "0123456789" b = "hello world!" # a의 1번째, 6번째 글자 인덱싱 print(a[0]) # '0' print(a[5]) # '5' # b의 2번째, 7번째 글자 인덱싱(공백도 자리에 포함됨에 유의) ..

[Pandas] 파이썬 판다스 isin 함수 및 not isin 조건 사용 방법

Python pandas isin / not isin 파이썬의 판다스 라이브러리에서 특정 목록 중에 있는 값들을 조회하고 싶은 경우 유용하게 사용할 수 있는 함수인 isin과 isin 함수의 반대 조건에 대한 사용 방법을 정리해보도록 하겠습니다. 이해를 돕기 위해서 다음과 같은 간단한 데이터프레임 df를 예시로 들어 설명하겠습니다. import pandas as pd a = {"반" : [1, 1, 2, 2, 3, 3], "이름" : ["가", "나", "다", "라", "마", "바"], "학점" : ["A", "B", "B", "C", "A", "D"]} df = pd.DataFrame(a) df isin 함수 사용법 isin 함수는 df[열 이름].isin(목록 리스트) 형태로 사용해주시면 됩니다...

Python/Pandas 2022.09.18

[Sklearn] 파이썬 ROC 커브, AUC 면적 구하기 예제

Python scikit-learn ROC curve, AUC 파이썬에서 사이킷런을 활용하여 이진 분류 문제의 ROC 커브를 그려보고 AUC 값을 구해보는 방법을 간단한 예제를 통해 알아보도록 하겠습니다. 데이터셋 로드 및 전처리 이번 예제에서는 사이킷런에서 제공하는 기본 데이터셋인 breast cancer 분류 데이터셋을 활용해보겠습니다. 먼저, 아래의 코드로 target class에 대한 정보(0 또는 1이며, 악성/양성 종양 여부 의미)를 포함한 데이터셋을 데이터프레임 형태로 불러오겠습니다. import pandas as pd from sklearn import datasets # 유방암 데이터셋 로드 data = datasets.load_breast_cancer() df = pd.DataFrame..

Python/Sklearn 2022.09.16

파이썬에서 다른 py 파일의 변수 값을 가져오는 방법

파이썬에서 다른 파일에서 선언했던 변수를 그대로 호출하고 싶은 경우가 있습니다. 결론부터 말하면, 변수도 함수나 클래스를 가져올 때처럼 import 혹은 from ~ import로 똑같이 가져올 수 있습니다. 예시를 하나 들어서 이해를 도와드려보도록 하겠습니다. 아래와 같은 my_file.py 파일이 있다고 가정해보겠습니다. a = 3 b = 5 c = a + b a -= 3 최종 실행 결과는 a = 0, b = 5, c = 8이 저장되어 있음을 참고해주세요. import로 다른 파일 변수 참조 먼저, import 형태로 해당 py 파일을 모듈로 가져와 보겠습니다. 모듈 호출 후, 모듈명.변수명 형태로 변수들을 가져올 수 있습니다. import my_file # my_file.py 내의 변수들 참조 ne..

반응형