반응형

데이터분석 2

[Pandas] 데이터프레임 인덱싱 loc, at 차이(iloc, iat 차이)

이번 포스팅에서는 pandas 내 데이터프레임에서 인덱싱을 하는 loc, at과 iloc, iat 함수의 차이를 분석해보도록 하겠습니다. 데이터 프레임으로는 kaggle의 타이타닉 데이터셋을 활용하여 예시를 들어보도록 하겠습니다. loc, at 분석 이 두 함수에서 인덱싱을 하는 여러 경우에 대하여 가능 여부를 살펴보도록 하겠습니다. 1) 단일 데이터 인덱싱 예를 들어, 'Pclass' 열의 100번 인덱스를 가지는 행의 값을 찾는 경우 두 함수 모두 정상 작동하는 것을 확인할 수 있습니다. 2) 한 column 내 범위 인덱싱 예를 들어, 'Pclass' 열의 100~102번 인덱스를 가지는 행들의 값을 찾는 경우 loc 함수는 정상 작동되지만, at 함수는 지원하지 않는 기능이라 ValueError가..

Python/Pandas 2021.11.05

[Pandas] 인덱스 초기화, 재정렬 (groupby 후 행 정렬) - reset_index

Groupby 함수, 멀티인덱스 파이썬 데이터 분석 툴인 Pandas를 사용하다보면 groupby 기능을 자주 사용하게 되고, 두 가지 이상의 범주로 groupby를 실행한 경우, 자동으로 멀티인덱스가 적용되어, 다음과 같이 뭉쳐있는 데이터 프레임의 형태를 살펴볼 수 있다. 해당 데이터 셋은 kaggle에서 제공하는 타이타닉 데이터셋을 사용하였고, 다음과 같이 Pclass와 Survived 열로 groupby를 실행한 결과이다. df = pd.DataFrame(train.groupby(['Pclass', 'Survived'])['Name'].count()) 우리는 다음과 같이 각 행이 나누어져있고, 인덱스가 초기화된 결과를 얻고 싶을 때가 있다. 이후 인덱싱이나 다른 작업에 넘길때 일반 데이터프레임처럼 ..

Python/Pandas 2021.11.04
반응형