반응형

판다스 37

[Pandas] 파이썬 인덱스 설정 방법 정리(set_index 함수)

판다스 set_index 함수 사용법(데이터프레임 인덱스 지정) 안녕하세요. 이번 시간에는 파이썬 판다스 라이브러리에서 데이터프레임의 인덱스를 지정할 수 있는 set_index 함수의 경우의 수에 대하여 정리를 해보며 사용 방법을 익혀보도록 하겠습니다. 참고로, 이 글은 pandas 공식 document의 set_index 설명 글을 기반으로 작성되었습니다. 이해를 돕기 위하여, 아래와 같은 간단한 데이터프레임을 예시로 인덱스를 설정해보겠습니다. import pandas as pd df = pd.DataFrame({'id' : [101, 102, 103, 104], 'name' : ['aaa', 'bbb', 'ccc', 'ddd'], 'math' : [100, 85, 93, 87], 'english' :..

Python/Pandas 2022.03.01

[Pandas] pd.where 사용법, 경우의 수 정리

판다스 where 함수 Series, DataFrame 사용 예제 안녕하세요. 이번 글에서는 pandas 라이브러리에서 시리즈 혹은 데이터프레임 내 조건 탐색 및 대치에 활용되는 pd.where 함수의 사용법에 대한 예제를 살펴보도록 하겠습니다. 참고로, 이 글은 판다스 공식 문서의 pd.where 함수 설명 글을 바탕으로 작성되었음을 알립니다. Series에 적용 케이스 1 : 조건 만족 행 필터링 먼저, 열 1개에 해당하는 Series 자료형에 where 함수를 적용하는 예시를 살펴보겠습니다. 아래와 같은 5개의 원소를 가진 간단한 시리즈를 생각해보겠습니다. import pandas as pd sr = pd.Series([1, 5, 3, 2, 4]) sr ### 0 1 1 5 2 3 3 2 4 4 d..

Python/Pandas 2022.02.20

[Pandas] 데이터프레임 생략 없이 출력 방법(display 옵션)

파이썬 판다스 모든 행, 열 출력 하기 판다스 라이브러리를 이용하여 데이터프레임을 출력할 때, 행이나 열 개수가 너무 많은 경우 일부가 생략되어 보이면서 불편한 경우가 있습니다. 이번 시간에는 display 옵션을 통하여 출력될 행, 열의 개수를 조정하여 생략 없이 모든 데이터프레임의 값을 볼 수 있는 방법을 말씀드리겠습니다. 행 최대 출력 개수 변경 pd.set_option('display.max_rows', 숫자) 위의 코드 한줄에 원하는 숫자를 입력하여 출력되는 행의 최대 개수를 변경하실 수 있습니다. 단, 행 개수에 관계없이 데이터프레임의 모든 행을 출력하는 방법은 숫자 부분에 None을 입력해주시면 됩니다. 다만, 데이터프레임이 매우 큰 경우에는 속도 감소 및 튕김 현상 등이 발생 가능하니 사용..

Python/Pandas 2022.02.14

[Pandas] 데이터프레임 열 타입 확인 : df.info(), df.dtypes

파이썬 데이터프레임 컬럼 자료형 확인 : df.info(), df.dtypes 데이터프레임의 각 열에 대해서 타입 및 결측값 개수를 한눈에 확인해볼 수 있는 df.info() 함수에 대해서 소개해드리겠습니다. 또한, 타입만 확인하는 경우의 df.dtypes 속성도 같이 다루어보겠습니다. 데이터프레임 열 타입, 결측값 개수 확인 : df.info() 메소드 예시 데이터프레임으로 캐글의 타이타닉 데이터셋을 아래와 같이 불러오도록 하겠습니다. import pandas as pd df = pd.read_csv('train.csv') df 총 12개의 열로 구성된 데이터프레임이며, 행의 개수는 891개였습니다. df.info() 함수를 통하여 각 컬럼의 정보를 확인해보겠습니다. 인덱스 정보, 메모리 사용량 등 세..

Python/Pandas 2022.01.11

[Pandas] 파이썬 csv, tsv 파일 읽기, 내보내기 : read_csv, to_csv

파이썬 판다스에서 csv파일로 데이터프레임 만들기 용량에 대한 효율이 좋아 데이터프레임을 저장하고 불러올 때 많이 사용하는 csv파일을 읽어오고 저장할 수 있는 판다스의 read_csv, to_csv 함수의 사용법에 대하여 많이 사용되는 기능 위주로 살펴보도록 하겠습니다. 먼저, 다음과 같은 간단한 내용이 student.csv 파일로 저장되어있다고 가정해보겠습니다. 이 파일을 메모장으로 열게되면 다음과 같이 콤마(,)로 각 내용이 구분되어 있습니다. csv 파일 읽어오기 함수 : pd.read_csv pd.read_csv 함수의 가장 기본적인 사용법은 csv 파일의 디렉토리를 input으로 지정해주시면 기본 옵션으로 파일을 읽어와 데이터프레임을 만들어 줍니다. 디렉토리는 작업중인 파이썬 파일을 기준으로 ..

Python/Pandas 2022.01.11

[Pandas] 파이썬 데이터프레임 행 삭제, 열 삭제(drop 함수)

파이썬 판다스 행, 열 삭제 함수 : drop 파이썬에서 데이터프레임을 다룰 때, 원하는 행이나 열을 쉽게 삭제할 수 있는 drop 함수의 사용법을 살펴보겠습니다. 이 글은 판다스의 drop 메소드 공식 document의 내용을 바탕으로 작성되었습니다. 데이터프레임 행 삭제 방법 먼저, 아래와 같은 간단한 예시 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd a = {'col1' : [1, 3, 5, 7, 9], 'col2' : ['a', 'b', 'c', 'd', 'e'], 'col3' : [10, 9, 8, 7, 6]} df = pd.DataFrame(a) print(df) col1 col2 col3 0 1 a 10 1 3 b 9 2 5 c 8 3 7 d 7 4 9 e 6 ..

Python/Pandas 2022.01.10

[Pandas] 파이썬 데이터프레임 병합/합치기 함수 비교(merge, concat)

파이썬 판다스 데이터프레임 합치기 함수 : pd.merge vs pd.concat 안녕하세요. 이번 시간에는 판다스에서 데이터프레임을 병합할 수 있는 두 함수인 pd.merge와 pd.concat 함수의 용도와 결과 차이에 대해서 간단히 비교해보는 시간을 가져보도록 하겠습니다. 먼저, 아래와 같이 간단한 데이터프레임 두 개가 각각 df_1, df_2 변수에 저장된 상태라고 가정해보겠습니다. 위 데이터프레임 두 개를 병합하는 여러 예시를 통해서 합쳐지는 형태와 원리를 이해해보겠습니다. merge 함수 : 내부 조인 (inner join) 가장 기본적인 예시로, 공통된 키의 값이 있는 경우에만 데이터프레임을 병합하는 내부 조인의 예시를 살펴보겠습니다. 예를 들어, 이름을 기준으로 df_1, df_2를 내부 ..

Python/Pandas 2021.12.30

[Pandas] 파이썬 판다스 행, 열에 함수 적용 : pd.transform()

파이썬 판다스 데이터프레임 함수 적용 : pd.transform() 안녕하세요. 지난 번에 다뤘던 apply 함수에 이어, 이번에는 판다스 데이터프레임의 각 행, 열에 함수를 적용할 수 있는 좀더 간단한 방법인 transform 함수의 예제를 살펴보도록 하겠습니다. 궁금하신 분들을 위하여 지난 번에 다룬 apply 함수 사용법에 대한 글의 링크는 아래에 첨부해두겠습니다. [Pandas] 파이썬 데이터프레임 열, 행에 함수 적용 - apply 함수 파이썬에서 판다스를 이용하여 데이터프레임 작업을 하다보면 특정 column이나 row에 원하는 작업을 시키고 싶은 경우가 많을 것입니다. 이번 포스팅에서는 간단하지만 알아두면 굉장히 요긴한 jimmy-ai.tistory.com 두 함수의 세부적인 용도나 결과 형..

Python/Pandas 2021.12.29

[Pandas] 데이터프레임 정렬하기 : sort_values, sort_index 함수

파이썬 판다스 정렬 함수 : sort_values() 안녕하세요. 이번 글에서는 판다스에서 데이터프레임을 정렬하는 함수인 sort_values 함수의 사용법에 대해서 간단히 다루어보겠습니다. 우선, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd import numpy as np a = {'A' : [1, 3, 2, 2, 3, 4], 'B' : ['a', 'b', 'e', 'a', 'd', 'c'], 'C' : [np.nan, 1.5, -0.3, np.nan, 4.2, 0.0]} df = pd.DataFrame(a) df A열은 int형, B열은 str형, C열은 float형 자료형임을 가정하겠습니다. sort_values 기본 예시 : 열 1개 기준 정렬 가장 기..

Python/Pandas 2021.12.23

[Pandas] 파이썬 엑셀 파일 다루기 : read_excel, to_excel

파이썬 판다스 : 엑셀 파일로 데이터프레임 생성 안녕하세요. 이번 포스팅에서는 파이썬 엑셀 파일에서 csv 등 다른 파일로 변환 없이 바로 데이터프레임을 생성하여 다룰 수 있는 판다스의 read_excel 함수에 대해서 알아보고, 작업한 데이터프레임을 엑셀 파일로 다시 내보낼 수 있는 to_excel 함수도 다뤄보겠습니다. 엑셀 파일 가져오기 함수 : read_excel 먼저, 이번 예시에서는 다음과 같은 student.xlsx 파일이 있다고 가정해보겠습니다. 내부 양식이 더 복잡하거나 셀 내에 함수가 들어있어도 상관은 없으며, 시트가 여러개인 경우나 행, 열이 첫 셀부터 시작하지 않는 경우는 뒷 부분에서 다루어보도록 하겠습니다. 일단, 데이터프레임으로 가져오는 방법은 간단합니다. pd.read_exce..

Python/Pandas 2021.12.22
반응형