반응형

Python/Pandas 46

[Pandas] 파이썬 데이터프레임 중복 제거 : drop_duplicates() 사용법

파이썬 판다스 중복 행 제거 함수 : drop_duplicates() 이번 글에서는 판다스에서 중복된 행을 쉽게 제거할 수 있는 drop_duplicates 함수의 사용법에 대해서 살펴보겠습니다. 이 글은 판다스 공식 문서의 해당 함수에 대한 글을 기반으로 작성되었습니다. 우선, 다음과 같은 간단한 데이터프레임 있다고 가정해보겠습니다. import pandas as pd a = {'A' : [111, 111, 111, 111, 222, 222], 'B' : ['aaa', 'aaa', 'bbb', 'bbb', 'aaa', 'bbb'], 'C' : ['zzz', 'zzz', 'zzz', 'yyy', 'zzz', 'yyy']} df = pd.DataFrame(a) df 0, 1번 행은 완전히 동일하며, 일부 ..

Python/Pandas 2022.01.17

[Pandas] 데이터프레임 열 타입 확인 : df.info(), df.dtypes

파이썬 데이터프레임 컬럼 자료형 확인 : df.info(), df.dtypes 데이터프레임의 각 열에 대해서 타입 및 결측값 개수를 한눈에 확인해볼 수 있는 df.info() 함수에 대해서 소개해드리겠습니다. 또한, 타입만 확인하는 경우의 df.dtypes 속성도 같이 다루어보겠습니다. 데이터프레임 열 타입, 결측값 개수 확인 : df.info() 메소드 예시 데이터프레임으로 캐글의 타이타닉 데이터셋을 아래와 같이 불러오도록 하겠습니다. import pandas as pd df = pd.read_csv('train.csv') df 총 12개의 열로 구성된 데이터프레임이며, 행의 개수는 891개였습니다. df.info() 함수를 통하여 각 컬럼의 정보를 확인해보겠습니다. 인덱스 정보, 메모리 사용량 등 세..

Python/Pandas 2022.01.11

[Pandas] 파이썬 csv, tsv 파일 읽기, 내보내기 : read_csv, to_csv

파이썬 판다스에서 csv파일로 데이터프레임 만들기 용량에 대한 효율이 좋아 데이터프레임을 저장하고 불러올 때 많이 사용하는 csv파일을 읽어오고 저장할 수 있는 판다스의 read_csv, to_csv 함수의 사용법에 대하여 많이 사용되는 기능 위주로 살펴보도록 하겠습니다. 먼저, 다음과 같은 간단한 내용이 student.csv 파일로 저장되어있다고 가정해보겠습니다. 이 파일을 메모장으로 열게되면 다음과 같이 콤마(,)로 각 내용이 구분되어 있습니다. csv 파일 읽어오기 함수 : pd.read_csv pd.read_csv 함수의 가장 기본적인 사용법은 csv 파일의 디렉토리를 input으로 지정해주시면 기본 옵션으로 파일을 읽어와 데이터프레임을 만들어 줍니다. 디렉토리는 작업중인 파이썬 파일을 기준으로 ..

Python/Pandas 2022.01.11

[Pandas] 파이썬 데이터프레임 행 삭제, 열 삭제(drop 함수)

파이썬 판다스 행, 열 삭제 함수 : drop 파이썬에서 데이터프레임을 다룰 때, 원하는 행이나 열을 쉽게 삭제할 수 있는 drop 함수의 사용법을 살펴보겠습니다. 이 글은 판다스의 drop 메소드 공식 document의 내용을 바탕으로 작성되었습니다. 데이터프레임 행 삭제 방법 먼저, 아래와 같은 간단한 예시 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd a = {'col1' : [1, 3, 5, 7, 9], 'col2' : ['a', 'b', 'c', 'd', 'e'], 'col3' : [10, 9, 8, 7, 6]} df = pd.DataFrame(a) print(df) col1 col2 col3 0 1 a 10 1 3 b 9 2 5 c 8 3 7 d 7 4 9 e 6 ..

Python/Pandas 2022.01.10

[Pandas] 리스트, 딕셔너리 자료형을 데이터프레임, Series로 바꾸기

파이썬 리스트, 딕셔너리에서 DataFrame, Series 변환 파이썬의 리스트, 딕셔너리 자료형에서 시리즈 혹은 데이터프레임 자료형으로 변환하는 경우들의 예시 코드와 결과에 대해 간단히 정리해보도록 하겠습니다. 리스트를 시리즈로 변환(list to Series) 리스트를 Series로 설정하는 과정은 pd.Series 함수에 해당 리스트를 input으로 넣어주면 간단하게 수행됩니다. import pandas as pd a = [10, 30, 20, 40] pd.Series(a) # 결과 0 10 1 30 2 20 3 40 dtype: int64 기본적으로 인덱스는 0, 1, 2, 3, ... 형태로 지정되나, index 인자로 인덱스를 원하는대로 설정하는 것도 가능합니다. a = [10, 30, 20..

Python/Pandas 2022.01.08

[Pandas] 파이썬 데이터프레임 병합/합치기 함수 비교(merge, concat)

파이썬 판다스 데이터프레임 합치기 함수 : pd.merge vs pd.concat 안녕하세요. 이번 시간에는 판다스에서 데이터프레임을 병합할 수 있는 두 함수인 pd.merge와 pd.concat 함수의 용도와 결과 차이에 대해서 간단히 비교해보는 시간을 가져보도록 하겠습니다. 먼저, 아래와 같이 간단한 데이터프레임 두 개가 각각 df_1, df_2 변수에 저장된 상태라고 가정해보겠습니다. 위 데이터프레임 두 개를 병합하는 여러 예시를 통해서 합쳐지는 형태와 원리를 이해해보겠습니다. merge 함수 : 내부 조인 (inner join) 가장 기본적인 예시로, 공통된 키의 값이 있는 경우에만 데이터프레임을 병합하는 내부 조인의 예시를 살펴보겠습니다. 예를 들어, 이름을 기준으로 df_1, df_2를 내부 ..

Python/Pandas 2021.12.30

[Pandas] 파이썬 판다스 행, 열에 함수 적용 : pd.transform()

파이썬 판다스 데이터프레임 함수 적용 : pd.transform() 안녕하세요. 지난 번에 다뤘던 apply 함수에 이어, 이번에는 판다스 데이터프레임의 각 행, 열에 함수를 적용할 수 있는 좀더 간단한 방법인 transform 함수의 예제를 살펴보도록 하겠습니다. 궁금하신 분들을 위하여 지난 번에 다룬 apply 함수 사용법에 대한 글의 링크는 아래에 첨부해두겠습니다. [Pandas] 파이썬 데이터프레임 열, 행에 함수 적용 - apply 함수 파이썬에서 판다스를 이용하여 데이터프레임 작업을 하다보면 특정 column이나 row에 원하는 작업을 시키고 싶은 경우가 많을 것입니다. 이번 포스팅에서는 간단하지만 알아두면 굉장히 요긴한 jimmy-ai.tistory.com 두 함수의 세부적인 용도나 결과 형..

Python/Pandas 2021.12.29

[Pandas] 데이터프레임 정렬하기 : sort_values, sort_index 함수

파이썬 판다스 정렬 함수 : sort_values() 안녕하세요. 이번 글에서는 판다스에서 데이터프레임을 정렬하는 함수인 sort_values 함수의 사용법에 대해서 간단히 다루어보겠습니다. 우선, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd import numpy as np a = {'A' : [1, 3, 2, 2, 3, 4], 'B' : ['a', 'b', 'e', 'a', 'd', 'c'], 'C' : [np.nan, 1.5, -0.3, np.nan, 4.2, 0.0]} df = pd.DataFrame(a) df A열은 int형, B열은 str형, C열은 float형 자료형임을 가정하겠습니다. sort_values 기본 예시 : 열 1개 기준 정렬 가장 기..

Python/Pandas 2021.12.23

[Pandas] 파이썬 엑셀 파일 다루기 : read_excel, to_excel

파이썬 판다스 : 엑셀 파일로 데이터프레임 생성 안녕하세요. 이번 포스팅에서는 파이썬 엑셀 파일에서 csv 등 다른 파일로 변환 없이 바로 데이터프레임을 생성하여 다룰 수 있는 판다스의 read_excel 함수에 대해서 알아보고, 작업한 데이터프레임을 엑셀 파일로 다시 내보낼 수 있는 to_excel 함수도 다뤄보겠습니다. 엑셀 파일 가져오기 함수 : read_excel 먼저, 이번 예시에서는 다음과 같은 student.xlsx 파일이 있다고 가정해보겠습니다. 내부 양식이 더 복잡하거나 셀 내에 함수가 들어있어도 상관은 없으며, 시트가 여러개인 경우나 행, 열이 첫 셀부터 시작하지 않는 경우는 뒷 부분에서 다루어보도록 하겠습니다. 일단, 데이터프레임으로 가져오는 방법은 간단합니다. pd.read_exce..

Python/Pandas 2021.12.22

[Pandas] 파이썬 판다스 데이터프레임 인덱싱 총정리(loc, iloc)

안녕하세요. 이번 글에서는 헷갈려보이지만 알고보면 굉장히 간단한 판다스 데이터프레임에서 인덱싱을 하는 방법에 대해서 다루어보려고 합니다. 참고로, 데이터프레임은 행은 인덱스를 기준으로, 열은 열 이름을 기준으로 명명되어있다는 점을 기억해두세요! 판다스 데이터프레임 인덱스, column 이름을 기준으로 인덱싱 : loc 함수 다음과 같은 아주 간단한 데이터프레임을 예시로 인덱싱 과정을 설명해보도록 하겠습니다. 학생 5명의 이름과 성적이라고 가정해보겠습니다. 우선 첫 번째로, a1, a2, a3 인덱스를 가진 행을 추출해보겠습니다. loc 함수 내에 원하는 index들을 리스트로 감싸서 input으로 넣어주면 됩니다! 참고로, csv 파일을 불러온 경우 등에서 기본적으로 0부터 시작하는 숫자 index를 가..

Python/Pandas 2021.11.27
반응형