반응형

Python/Pandas 46

[Pandas] 파이썬 데이터프레임 원핫인코딩 함수 : get_dummies() 사용법

파이썬 판다스 one-hot encoding 함수 예제 파이썬 데이터프레임에서 범주형 column에 대하여 원핫인코딩을 손쉽게 진행하는 방법을 pandas의 get_dummies() 함수의 사용 예시를 통해서 다루어보도록 하겠습니다. 아래와 같이 숫자형 컬럼 2개와 범주형 컬럼 2개로 구성된 데이터프레임을 가정하겠습니다. import pandas as pd import numpy as np a = {'A' : [1, 2, 3, 4, 5, 6], 'B' : [10, 20, 30, 40, 50, 60], 'class' : ['가', '가', '나', '나', '다', '다'], 'level' : ['A', 'A', 'A', 'B', 'B', np.nan]} df = pd.DataFrame(a) df 기본 사..

Python/Pandas 2022.06.02

[Pandas] 파이썬 IQR 기반 이상치(outlier) 탐지 및 제거 방법

파이썬 판다스 이상값 찾기, 처리 예제 파이썬의 데이터프레임 내에서 각 열 내에서 이상치(outlier)를 찾아보고 이를 제거해보는 방법을 간단한 예제를 통하여 이해하기 쉽게 다루어보도록 하겠습니다. 여기서는 IQR을 기반으로 이상치를 탐지하는 예시를 다루었으며, 이상치의 기준은 아래와 같습니다. Q3 : 100개의 데이터로 가정 시, 25번째로 높은 값에 해당합니다. Q1 : 100개의 데이터로 가정 시, 75번째로 높은 값에 해당합니다. IQR : Q3 - Q1의 차이를 의미합니다. 이상치 : Q3 + 1.5 * IQR보다 높거나 Q1 - 1.5 * IQR보다 낮은 값을 의미합니다. 참고로, outlier의 경계 기준은 데이터의 분포와 사용하는 상황에 맞게 조절할 수 있습니다. 이해를 돕기 위하여 아..

Python/Pandas 2022.05.30

[Pandas] 데이터프레임에서 열/행/그룹별/전체 최댓값, 최솟값 구하기(df.max(), df.min())

파이썬 판다스 max, min 탐색 방법 예제 파이썬에서 판다스 모듈을 활용하여 최댓값과 최솟값을 찾는 방법들을 특정 컬럼, 특정 row, 그룹별, 그리고 데이터프레임 전체에 대하여 예시를 들면서 다루어보도록 하겠습니다. 이해를 돕기 위하여, 아래와 같이 학생들의 과목별 점수가 담긴 데이터프레임 df를 가정하고 최댓값, 최솟값을 구하는 예시를 살펴보겠습니다. import pandas as pd a = {'이름' : ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'], '반' : ['A', 'A', 'A', 'B', 'B', 'B'], \ '국어' : [70, 95, 80, 60, 75, 90], '영어' : [80, 85, 75, 90, 65, 70], '수학' : [100, 8..

Python/Pandas 2022.05.23

[Pandas] 데이터프레임에서 가장 많이(또는 적게) 등장한 값, 횟수 찾기

파이썬 판다스 최빈값, 등장 횟수 추출 방법 판다스 모듈을 이용하여 파이썬 데이터프레임에서 가장 많이 혹은 적게 등장한 값과 해당 값의 등장 횟수를 추출하는 방법을 정리해보도록 하겠습니다. 이해를 돕기 위하여, 아래와 같은 간단한 데이터프레임 df를 예시로 들어 설명하겠습니다. import pandas as pd a = {'A' : ['가', '가', '가', '나', '나', '다'], 'B' : [10, 5, 3, 5, 5, 8]} df = pd.DataFrame(a) df 1. value_counts를 이용한 방법 먼저, 각 값의 등장 횟수를 세어주는 value_counts를 이용하여 최빈값을 추출할 수 있습니다. A열을 기준으로 value_counts를 적용한 결과는 다음과 같습니다. df.val..

Python/Pandas 2022.05.23

[Pandas] 파이썬 데이터프레임 행/열 복사(복제) 방법

파이썬 판다스 row/column 복사하기 파이썬 판다스 모듈에서 데이터프레임의 특정 행, 열을 복제하는 방법에 대해서 정리해보도록 하겠습니다. 예시로, 아래의 데이터프레임이 df라는 변수에 저장된 상황을 가정하고 결과를 살펴보겠습니다. import pandas as pd a = {'A' : [111, 222, 333, 444, 555, 666], 'B' : ['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff']} df = pd.DataFrame(a) df 행 1개 복제 행 1개를 복사하여 맨 아래의 위치에 붙이는 방법은 df.loc[인덱스]를 이용하여 행 1개를 가져온 뒤, df.append를 사용하여 맨 뒤의 위치에 복제된 행을 이어 붙이면 됩니다. 2번 인덱스에 해당하는 행을 ..

Python/Pandas 2022.05.20

[Pandas] 파이썬 데이터프레임 값 변경/대체 방법 정리

파이썬 판다스 값 바꾸기, 수정 방법 예제 Pandas 라이브러리의 데이터프레임에서 원하는 부분의 값을 변경, 대체하는 여러 가지 방법들을 정리해보도록 하겠습니다. 이해를 돕기 위하여, 아래의 데이터프레임을 예시로 값이 대체된 결과를 보여드리겠습니다. (앞의 코드 수행 결과에 누적된 변경 결과를 첨부할 예정이니 참고해주세요.) import pandas as pd a = {'A' : [1, 2, 3, 4, 5, 6], 'B' : [10, 20, 30, 40, 50, 60], 'C' : [100, 200, 300, 400, 500, 600]} df = pd.DataFrame(a) df 값 1개만 변경 가장 간단한 경우로 원하는 값 1개를 수정하는 예시를 먼저 살펴보겠습니다. df.loc[행의 인덱스, 열 이..

Python/Pandas 2022.05.18

[Pandas] 파이썬 데이터프레임 특정 열 추출, 행 추출(1개, 여러 개)

파이썬 판다스 원하는 열/행 가져오기 방법 간단 정리 파이썬 pandas 모듈을 이용하여 데이터프레임에서 원하는 1개의 열/행을 가져오는 방법과 여러 개의 column/row들을 동시에 추출하는 법에 대해서 간략하게 정리해보겠습니다. 이해를 돕기 위하여, 아래의 데이터프레임이 df라는 변수에 저장된 상황을 가정하겠습니다. import pandas as pd a = {'A' : [1, 2, 3, 4, 5], 'B' : [10, 20, 30, 40, 50], 'C' : [100, 200, 300, 400, 500]} df = pd.DataFrame(a, index = ['가', '나', '다', '라', '마']) df 열 1개 추출하기 대괄호 [] 1개로 해당 column의 이름을 지정해주시면 Series..

Python/Pandas 2022.04.26

[Pandas] 파이썬 피벗테이블 필터링, 정렬 및 데이터프레임 변환

판다스 pivot table 값 추출, 정렬, to dataframe 이번 글에서는 지난 시간에 다루었던 피벗테이블 생성법에 이어서 생성된 테이블 내에서 필터링, 정렬 및 데이터프레임 변환을 진행하는 방법에 대해서 다루어보도록 하겠습니다. pd.pivot_table 함수로 테이블을 생성하는 상세한 방법은 아래 링크의 이전 글을 참고하세요. [Pandas] 파이썬 피벗테이블 생성 : pd.pivot_table 함수 사용법 정리 파이썬 판다스 피벗테이블 조회 예제 파이썬 pandas 모듈의 pd.pivot_table 함수로 피벗테이블을 원하는대로 생성하는 방법을 values, index, columns, fill_value 및 aggfunc 인자의 기능을 위주로 정리해보겠습. jimmy-ai.tistory...

Python/Pandas 2022.04.21

[Pandas] 파이썬 피벗테이블 생성 : pd.pivot_table 함수 사용법 정리

파이썬 판다스 pivot_table 함수 사용 예제 파이썬 pandas 모듈의 pd.pivot_table 함수로 피벗테이블을 원하는대로 생성하는 방법을 values, index, columns, fill_value 및 aggfunc 인자의 기능을 위주로 정리해보겠습니다. 이 글은 판다스의 pd.pivot_table 함수 공식 설명 글의 내용에 기반하여 작성되었습니다. 먼저, 이해를 돕기 위하여 아래와 같이 학생들의 정보와 점수가 적혀있는 데이터프레임 df가 있다고 가정해보도록 하겠습니다. import pandas as pd import numpy as np a = {'반' : [1, 1, 1, 1, 2, 2, 2, 2], '성별' : ['남', '남', '여', '여', '남', '남', '여', '여'..

Python/Pandas 2022.04.21

[Pandas] 파이썬 데이터프레임 행 추가, 열 추가 방법 정리

파이썬 판다스 DataFrame 새로운 행/열 삽입 예제 파이썬의 데이터프레임 자료형에 새로운 행과 열을 추가할 수 있는 방법들을 경우의 수를 나눠서 알기 쉽게 정리해보도록 하겠습니다. 이해를 돕기 위하여, 아래 형태의 데이터프레임이 df라는 변수에 저장되어 있는 상황을 가정하고 행 혹은 열이 추가되는 예시 결과들을 비교해보도록 하겠습니다. import pandas as pd df = pd.DataFrame({'A' : ['a1', 'a2', 'a3', 'a4'], 'B' : ['b1', 'b2', 'b3', 'b4'], 'C' : ['c1', 'c2', 'c3', 'c4']}) df 행 삽입 방법 1(마지막 위치에 추가) : df.loc 함수 사용 맨 뒤의 위치에 row를 덧붙이는 경우에는 마지막 in..

Python/Pandas 2022.04.12
반응형