Python/Utils

파이썬에서 jsonl 파일을 읽어 들이는 방법

jimmy_AI 2022. 2. 25. 22:20
반응형

Python jsonlines read

json과 비슷해 보이지만 다소 특이해보이는 파일 형식인 jsonl 파일을

파이썬에서 읽는 방법에 대해서 다루어보도록 하겠습니다.

 

 

jsonl 파일 이란?

jsonl 확장자를 가진 파일의 특징은 여러개의 json 형식 파일이 각 줄마다 기록되어 있는

형태로 생각해주시면 이해가 쉽습니다.

# jsonl 파일 예시(각 줄마다 json 형식)
{ "id": "101", "name": "aaa", "buy_list" : ["lemon", "orange"]}
{ "id": "102", "name": "bbb"}
{ "id": "103", "name": "ccc", "buy_list" : ["melon"], "age" : 35}
{ "id": "104", "name": "ddd", "age" : 29}

이 점을 이용하여, jsonl 파일의 정보를 추출하는 예제를 살펴보겠습니다.

 

 

jsonl 파일 읽기 방법

우선, 일반적인 json 형식의 파일을 읽는 방법은 아래의 포스팅을 참고해주시면 됩니다.

 

파이썬 json 파일 읽고 파싱하기, load와 loads 함수 비교

Python json 가져오기, 정보 추출 방법 안녕하세요. 이번 글에서는 파이썬에서 json 파일을 읽고 정보를 파싱하는 방법에 대해서 간략하게 살펴보도록 하겠습니다. 또한, json의 load와 loads 함수의 차

jimmy-ai.tistory.com

위 방법과는 달리, jsonl 파일은 jsonlines 라이브러리를 이용하여 읽는 것이 편리합니다.

 

먼저, 아래 명령어로 jsonlines 패키지를 설치해주세요.

!pip install jsonlines

이제, 아래의 예제 코드처럼 텍스트 파일을 읽어 들이는 방법과 비슷하게

jsonl 파일을 1줄씩 읽으면서 필요한 일을 수행하시면 됩니다.

import jsonlines

# id 정보를 모아서 저장하는 예시
id_list = []

# open 내의 디렉토리 및 파일 이름에 유의
with jsonlines.open('customer.jsonl') as f:
    for line in f:
    	id_list.append(line['id'])