반응형

groupby 3

[Pandas] 데이터프레임에서 가장 많이(또는 적게) 등장한 값, 횟수 찾기

파이썬 판다스 최빈값, 등장 횟수 추출 방법 판다스 모듈을 이용하여 파이썬 데이터프레임에서 가장 많이 혹은 적게 등장한 값과 해당 값의 등장 횟수를 추출하는 방법을 정리해보도록 하겠습니다. 이해를 돕기 위하여, 아래와 같은 간단한 데이터프레임 df를 예시로 들어 설명하겠습니다. import pandas as pd a = {'A' : ['가', '가', '가', '나', '나', '다'], 'B' : [10, 5, 3, 5, 5, 8]} df = pd.DataFrame(a) df 1. value_counts를 이용한 방법 먼저, 각 값의 등장 횟수를 세어주는 value_counts를 이용하여 최빈값을 추출할 수 있습니다. A열을 기준으로 value_counts를 적용한 결과는 다음과 같습니다. df.val..

Python/Pandas 2022.05.23

[Pandas] 파이썬 판다스 그룹화 하기 : groupby 함수

파이썬 판다스에서 데이터프레임을 원하는 열을 기준으로 그룹화하여 필요한 정보를 얻어낼 수 있는 groupby 함수의 사용법에 대해서 자세히 다루어보도록 하겠습니다. 판다스 그룹화 : Pandas groupby 함수 우선, 다음과 같은 데이터프레임이 df라는 변수에 저장되어 있다고 가정해보겠습니다. 이름, 학급, 성별, 국적, 점수 5개의 column으로 이루어진 간단한 데이터프레임입니다. 국적 column에는 일부 결측치도 있다고 가정해보겠습니다. groupby 사용법 1 : 그룹화 한 후 특정 column 대상 개수 세기, 평균 내기 첫 번째로, 학급을 기준으로 각 column의 유효 element 개수(결측치 제외한 값의 개수)를 세어보도록 하겠습니다. df.groupby('class').count(..

Python/Pandas 2021.11.16

[Pandas] 인덱스 초기화, 재정렬 (groupby 후 행 정렬) - reset_index

Groupby 함수, 멀티인덱스 파이썬 데이터 분석 툴인 Pandas를 사용하다보면 groupby 기능을 자주 사용하게 되고, 두 가지 이상의 범주로 groupby를 실행한 경우, 자동으로 멀티인덱스가 적용되어, 다음과 같이 뭉쳐있는 데이터 프레임의 형태를 살펴볼 수 있다. 해당 데이터 셋은 kaggle에서 제공하는 타이타닉 데이터셋을 사용하였고, 다음과 같이 Pclass와 Survived 열로 groupby를 실행한 결과이다. df = pd.DataFrame(train.groupby(['Pclass', 'Survived'])['Name'].count()) 우리는 다음과 같이 각 행이 나누어져있고, 인덱스가 초기화된 결과를 얻고 싶을 때가 있다. 이후 인덱싱이나 다른 작업에 넘길때 일반 데이터프레임처럼 ..

Python/Pandas 2021.11.04
반응형