반응형

Python/Pandas 46

[Pandas] 파이썬 데이터프레임 열 이름 바꾸기 방법 정리 : columns, rename

파이썬 판다스 DataFrame column name 변경법 파이썬의 판다스 모듈에서 데이터프레임의 칼럼 이름을 바꾸는 방법을 columns 속성을 변경하는 경우과 rename 함수를 이용하는 경우로 나누어 간략하게 설명해보도록 하겠습니다. 이해를 돕기 위하여, 아래와 같은 간단한 데이터프레임이 df라는 변수에 담겨있는 상황에서 열 이름을 바꾸는 경우를 가정해보도록 하겠습니다. import pandas as pd a = {'A' : [1, 2, 3, 4], 'B' : [5, 6, 7, 8], 'C' : [9, 10, 11, 12]} df = pd.DataFrame(a) df df.columns 속성 이용 1 : 열 이름 목록 직접 지정 DataFrame의 열 이름 목록은 df.columns 속성에 저장되..

Python/Pandas 2022.04.09

[Pandas] txt 파일을 데이터프레임으로 여는 방법 정리

파이썬 판다스 텍스트 파일을 DataFrame으로 변환 예제 파이썬에서 텍스트 파일을 데이터프레임으로 바꾸는 방법을 text 파싱을 이용한 예시와 read_csv 함수를 이용하여 간단하게 여는 예시로 나누어서 설명해보도록 하겠습니다. 예제로 아래와 같은 간단한 텍스트 파일이 student.txt로 저장되어 있다고 가정해보겠습니다. 데이터 간 구분자는 공백을 가정합니다. txt file to DataFrame 방법 1 : 텍스트 파싱 후 변환 다소 복잡할 수 있는 방법으로 txt 파일을 연 뒤, 데이터 파싱 과정을 거쳐 데이터프레임으로 변환하는 방법을 먼저 다루어보겠습니다. 이 방법은 구분자가 불규칙한 상황 등에서 유용할 수 있습니다. 만일, 구분자가 규칙적이라면 방법 2의 read_csv 함수를 이용한 ..

Python/Pandas 2022.04.02

[Pandas] json 파일 <-> 데이터프레임 변환 : to_json, read_json

파이썬 판다스 json to DataFrame 및 DataFrame to json 파이썬에서 pandas 라이브러리의 to_json 및 read_json 함수를 이용하여 각각 데이터프레임을 json 파일로 바꾸고, json 파일을 데이터프레임으로 변환하는 예제에 대하여 다루어보도록 하겠습니다. 데이터프레임을 json 파일로 변환 : to_json() 예시로, 아래와 같은 간단한 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd a = {'A' : [1, 2, 3, 4], 'B' : ['a', 'b', 'c', 'd'], 'C' : ['A', 'B', 'C', 'D']} df = pd.DataFrame(a) df to_json 함수에서는 여러가지 양식의 json 파일 변환을 제공하..

Python/Pandas 2022.04.01

[Pandas] 파이썬 결측치 대치하기(전체 열/특정 열 대체와 0, 평균 값, 보간 대체) : fillna

파이썬 판다스 NaN 값 대체 방법 정리 : fillna 사용법 안녕하세요. 이번 글에서는 파이썬 판다스 라이브러리에서 데이터프레임의 전체 column 혹은 일부 column의 결측값을 0, 평균 값 혹은 보간 값 등으로 대체하는 방법에 대하여 총정리해보도록 하겠습니다. 이해를 돕기 위하여 아래와 같은 간단한 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd import numpy as np a = {'A' : [1, np.nan, 3, np.nan, 5, np.nan], 'B' : [np.nan, 20, np.nan, 40, np.nan, 60]} df = pd.DataFrame(a) df 전체 column 결측치 0 대치 : df.fillna(0) 0 혹은 다른 특정 값으로 ..

Python/Pandas 2022.03.14

[Pandas] 파이썬 결측치 포함 행, 열 제거 dropna 함수 사용법

판다스 데이터프레임 NaN 값 포함 위치 제거 방법(pd.dropna) 안녕하세요. 지난 글에서 다루었던 데이터프레임 내 결측값의 위치를 찾는 방법에 이어, 이번 글에서는 결측치를 포함하고 있는 행이나 열을 제거하는 방법을 dropna 함수의 사용법을 기반으로 하여 다루어보도록 하겠습니다. 결측값의 위치와 개수를 확인하는 방법에 관한 내용은 아래 링크의 지난 글을 참고해주세요. [Pandas] 파이썬 결측치 확인 방법 : isnull, notnull 판다스 데이터프레임 NaN 값 위치, 개수 확인 안녕하세요. 이번 시간에는 파이썬 판다스 라이브러리에서 데이터프레임 내의 결측값 행을 확인하고, 각 열 별로 결측치의 개수를 세는 방법을 isnull jimmy-ai.tistory.com 참고로 이 글은 pan..

Python/Pandas 2022.03.07

[Pandas] 파이썬 결측치 확인 방법 : isnull, notnull

판다스 데이터프레임 NaN 값 위치, 개수 확인 안녕하세요. 이번 시간에는 파이썬 판다스 라이브러리에서 데이터프레임 내의 결측값 행을 확인하고, 각 열 별로 결측치의 개수를 세는 방법을 isnull, notnull 함수의 사용법을 기준으로 간략하게 설명해보도록 하겠습니다. 결측치 행 확인 : isnull 이해를 돕기 위하여, 아래와 같은 결측값을 일부 포함하는 간단한 데이터프레임이 있다고 가정해보도록 하겠습니다. import pandas as pd import numpy as np a = {'A' : [np.nan, 2, 3, 4, 5, np.nan], 'B' : ['a', 'a', np.nan, 'b', 'b', 'b'], 'C' : [np.nan, 1.5, -0.3, np.nan, 4.2, np.na..

Python/Pandas 2022.03.06

[Pandas] to_datetime 사용법, 날짜 format 지정 방법

파이썬 판다스 datetime 자료형 변환 및 시간 형식 포맷팅 파이썬에서 데이터프레임을 열게되면 시간 정보를 담은 열은 기본적으로 아래와 같이 object 문자열 형태로 자료형이 지정되어 다루는 과정에서 어려움을 겪기도 합니다. 따라서, 이번 시간에는 해당 column의 자료형을 datetime 자료형으로 바꿔보고, 시간 정보 추출 및 날짜 형식 포맷팅을 진행하는 방법에 대해서 다루어보도록 하겠습니다. 참고로, 이 글은 캐글의 자전거 대여 예측 데이터셋의 datetime 열을 기준으로 작성되었습니다. string에서 datetime 자료형으로 전환 : pd.to_datetime() pd.to_datetime() 함수를 사용하여 시간 형식의 object 자료형 column을 datetime 형식으로 손쉽..

Python/Pandas 2022.03.02

[Pandas] 파이썬 인덱스 설정 방법 정리(set_index 함수)

판다스 set_index 함수 사용법(데이터프레임 인덱스 지정) 안녕하세요. 이번 시간에는 파이썬 판다스 라이브러리에서 데이터프레임의 인덱스를 지정할 수 있는 set_index 함수의 경우의 수에 대하여 정리를 해보며 사용 방법을 익혀보도록 하겠습니다. 참고로, 이 글은 pandas 공식 document의 set_index 설명 글을 기반으로 작성되었습니다. 이해를 돕기 위하여, 아래와 같은 간단한 데이터프레임을 예시로 인덱스를 설정해보겠습니다. import pandas as pd df = pd.DataFrame({'id' : [101, 102, 103, 104], 'name' : ['aaa', 'bbb', 'ccc', 'ddd'], 'math' : [100, 85, 93, 87], 'english' :..

Python/Pandas 2022.03.01

[Pandas] pd.where 사용법, 경우의 수 정리

판다스 where 함수 Series, DataFrame 사용 예제 안녕하세요. 이번 글에서는 pandas 라이브러리에서 시리즈 혹은 데이터프레임 내 조건 탐색 및 대치에 활용되는 pd.where 함수의 사용법에 대한 예제를 살펴보도록 하겠습니다. 참고로, 이 글은 판다스 공식 문서의 pd.where 함수 설명 글을 바탕으로 작성되었음을 알립니다. Series에 적용 케이스 1 : 조건 만족 행 필터링 먼저, 열 1개에 해당하는 Series 자료형에 where 함수를 적용하는 예시를 살펴보겠습니다. 아래와 같은 5개의 원소를 가진 간단한 시리즈를 생각해보겠습니다. import pandas as pd sr = pd.Series([1, 5, 3, 2, 4]) sr ### 0 1 1 5 2 3 3 2 4 4 d..

Python/Pandas 2022.02.20

[Pandas] 데이터프레임 생략 없이 출력 방법(display 옵션)

파이썬 판다스 모든 행, 열 출력 하기 판다스 라이브러리를 이용하여 데이터프레임을 출력할 때, 행이나 열 개수가 너무 많은 경우 일부가 생략되어 보이면서 불편한 경우가 있습니다. 이번 시간에는 display 옵션을 통하여 출력될 행, 열의 개수를 조정하여 생략 없이 모든 데이터프레임의 값을 볼 수 있는 방법을 말씀드리겠습니다. 행 최대 출력 개수 변경 pd.set_option('display.max_rows', 숫자) 위의 코드 한줄에 원하는 숫자를 입력하여 출력되는 행의 최대 개수를 변경하실 수 있습니다. 단, 행 개수에 관계없이 데이터프레임의 모든 행을 출력하는 방법은 숫자 부분에 None을 입력해주시면 됩니다. 다만, 데이터프레임이 매우 큰 경우에는 속도 감소 및 튕김 현상 등이 발생 가능하니 사용..

Python/Pandas 2022.02.14
반응형