반응형
파이썬 데이터프레임 컬럼 자료형 확인 : df.info(), df.dtypes
데이터프레임의 각 열에 대해서 타입 및 결측값 개수를
한눈에 확인해볼 수 있는 df.info() 함수에 대해서 소개해드리겠습니다.
또한, 타입만 확인하는 경우의 df.dtypes 속성도 같이 다루어보겠습니다.
데이터프레임 열 타입, 결측값 개수 확인 : df.info() 메소드
예시 데이터프레임으로
캐글의 타이타닉 데이터셋을 아래와 같이 불러오도록 하겠습니다.
import pandas as pd
df = pd.read_csv('train.csv')
df
총 12개의 열로 구성된 데이터프레임이며, 행의 개수는 891개였습니다.
df.info() 함수를 통하여 각 컬럼의 정보를 확인해보겠습니다.
인덱스 정보, 메모리 사용량 등 세부적인 정보도 등장하지만,
가운데 부분에 각 column마다 이름, 결측값이 아닌 행의 개수, 타입 정보가
세부적으로 등장하고 있는 것을 알 수 있습니다.
예를 들면,
Cabin 열은 891개 데이터 중 204개만 결측치가 아니므로, 무려 687개의 행이
결측치로 기록되어 있음을 알 수 있었습니다.
int64, float64 처럼 정수, 실수형 자료로 기록된 열들도 살펴볼 수 있습니다.
object는 기본적으로 문자열 형태로 되어있는 자료형이라고 보시면 되긴 하나,
각 행의 위치에 리스트, 딕셔너리 등이 저장되어 있는 특수 형태들도
모두 object 자료형 타입으로 취급한다는 사실을 참고해주시면 좋습니다.
데이터프레임 컬럼 자료형 타입만 확인 : df.dtypes 속성
데이터프레임 각 column의 자료형만을 확인하고 싶은 경우에는
df.dtypes 속성을 통해서 살펴볼 수도 있습니다.
이 때, df.dtypes()처럼 메소드 형태로 사용하지 않아야 한다는 점에 유의해주세요.
'Python > Pandas' 카테고리의 다른 글
[Pandas] 파이썬 데이터프레임 중복 제거 : drop_duplicates() 사용법 (0) | 2022.01.17 |
---|---|
[Pandas] 파이썬 csv, tsv 파일 읽기, 내보내기 : read_csv, to_csv (0) | 2022.01.11 |
[Pandas] 파이썬 데이터프레임 행 삭제, 열 삭제(drop 함수) (0) | 2022.01.10 |