반응형

분류 전체보기 502

[Tensorflow] TFDV 활용 파이썬 데이터 EDA 실습 예제

Python EDA by tensorflow_data_validation 오늘은 파이썬 텐서플로우에서 제공하는 TFDV 모듈을 활용하여 데이터에 대한 EDA 과정을 유용하게 진행하는 방법에 대하여 간략하게 정리해보겠습니다. 데이터셋 로드 이번 실습에서는 예시로 타이타닉 데이터셋에 대하여 EDA를 진행해보겠습니다. 아래의 코드로 해당 데이터프레임을 바로 불러올 수 있습니다. import seaborn as sns import pandas as pd df = sns.load_dataset('titanic') df TFDV 모듈 설치 이번 글에서는 tensorflow_data_validation(TFDV)를 활용하여 EDA를 진행하는 방법을 살펴볼 것이기에 해당 모듈이 설치되지 않았다면 설치가 필요합니다. 아..

Python/Tensorflow 2022.08.30

[Sklearn] 파이썬 단어 개수 세기 예제 : CountVectorizer 함수

Python scikit-learn word count method 파이썬의 사이킷런 모듈을 활용하여 단어의 개수를 손쉽게 셀 수 있는 CountVectorizer 메소드에 관하여 사용 예제를 간략하게 정리해보도록 하겠습니다. 우선, 아래와 같은 문서들의 리스트가 있다고 가정하고 문서별로 단어 개수를 세보겠습니다. d1 = '바나나 사과 딸기 딸기 참외' d2 = '수박 바나나 딸기 바나나 딸기' d3 = '딸기 수박 참외 사과 사과 수박' d4 = '사과 사과 사과 사과 참외 참외' corpus = [d1, d2, d3, d4] 단어 개수 세기 기본 예시 CountVectorizer를 사용하여 단어 개수 벡터화를 진행해 보겠습니다. 기본 값으로 사용 시 공백 기준으로 단어를 나눠 개수를 카운팅하게 되며..

Python/Sklearn 2022.08.29

RuntimeError: The expanded size of the tensor (1002) must match the existing size (512) at non-singleton dimension 1. Target sizes: [8, 1002]. Tensor sizes: [1, 512] 해결

Transformers token size error debugging transformers 모듈로 모델 학습 과정 중 너무 긴 토큰 사이즈로 인해 발생가능한 에러를 고치는 방법에 대하여 간략하게 다루어보도록 하겠습니다. 오류 원인 trainer로 bert 모델을 학습하는 과정 도중 학습이 잘 진행되다가 중간에 특정 데이터에 도달했을 때, 다음과 같은 오류 메시지가 발생하였습니다. (batch size = 8이었으며, batch 내 문제가 되는 데이터가 포함된 것으로 보입니다.) trainer.train() # RuntimeError: The expanded size of the tensor (1002) must match the existing size (512) at non-singleton dim..

Python/Debugging 2022.08.26

코테를 반영한 코딩 자격증 출시 : 프로그래머스 시행 PCCP(+체험 후기)

프로그래머스 코딩역량인증시험 소개 코딩 테스트를 준비하는 취업 준비생들에게 단비같은 소식이 찾아왔습니다. 바로 코딩 테스트 문제 유형과 유사한 형태의 코딩 자격증이 출시된다는 것인데요! 이번에 출시되는 자격증이 많은 IT 계열 취준생분들께 큰 도움이 되기를 바라며 해당 자격증에 대한 자세한 정보를 알아보도록 하겠습니다~! 프로그래머스에서 출시된 두 가지 코딩 자격증 : PCCP, PCCE 프로그래머스는 난이도별 / 유형별로 다양한 코딩 테스트 기출 및 연습 문제 제공 및 다양한 스터디 기회 생성 등을 통하여 IT 취준생들을 적극적으로 도와주며, 기업에서 활용할 코딩 문제 제공 등으로 개발자 채용 과정에 실제로 도움을 주는 플랫폼인데요. 이번에 여기서 출시한 두 가지 유형의 코딩 자격증인 PCCP와 PCC..

2022.08.25

[Matplotlib] 파이썬 산점도 텍스트 label 추가 방법

Python scatter plot 라벨 추가하기 예제 파이썬의 matplotlib(plt) 모듈로 산점도를 그린 뒤, 산점도의 각 점에 텍스트 레이블을 추가하는 방법을 간략하게 정리해 보겠습니다. 예시로, 다음과 같은 데이터프레임 df 정보에 대하여 산점도를 그려보겠습니다. import pandas as pd a = {'이름' : ['AA', 'BB', 'CC', 'DD', 'EE', 'FF'], 'x' : [0.7, 0.4, 1.2, 0.5, 1.3, 0.8], 'y' : [0.6, 1.0, 1.1, 0.5, 0.3, 0.9]} df = pd.DataFrame(a) df 우선, 각 행의 x 및 y 값을 기준으로 산점도를 그려본 결과는 아래와 같습니다. import matplotlib.pyplot as..

Python/Matplotlib 2022.08.24

[Pandas] 파이썬 판다스 요일 추출 방법 정리(weekday, day_name(), 한글 요일 이름)

Python pandas 데이터프레임 요일 구하기 파이썬의 판다스 모듈로 데이터프레임 내의 날짜 정보를 다룰 때, 요일 정보를 추출하는 여러 가지 방법들에 대하여 정리해보도록 하겠습니다. 이해를 돕기 위하여 아래와 같은 데이터프레임 df를 예시로 가정해보도록 하겠습니다. 참고로, 먼저 아래 코드로 시간 정보가 있는 열을 datetime 자료형으로 변환해주어야 합니다. df['시간'] = pd.to_datetime(df['시간']) 1. dt.weekday : 요일 정보를 숫자로 추출 datetime 자료형에서 dt.weekday 속성을 통하여 요일 정보를 숫자로 가져올 수 있습니다. 0은 월요일, 1은 화요일, ..., 6은 일요일을 의미합니다. df['weekday'] = df['시간'].dt.week..

Python/Pandas 2022.08.23

구글 코랩(Colab)에서 파일을 업로드하는 3가지 방법

Google Colaboratory 파일 불러오기 방법 정리 구글 코랩을 사용할 때 코딩 환경 내에 텍스트, 이미지 등의 파일을 올리는 대표적인 방법 3가지를 정리해보도록 하겠습니다. 1. 로컬 환경에서 직접 드래그 가장 간단한 방법으로 로컬 환경에서 원하는 파일을 드래그하여 코딩 환경 내에 파일을 불러오는 방법입니다. 먼저, 코랩을 실행 후 왼쪽의 폴더 모양 아이콘을 클릭해줍니다. 이후, 원하는 파일을 드래그하여 좌측 아래의 빈 공간에 놓거나 혹은 가장 왼쪽의 화살표 모양이 그려진 버튼을 클릭하여 직접 파일을 지정해줍니다. 원하는 파일이 아래처럼 파일 목록에 잘 존재하면 업로드가 완료된 것입니다. 해당 방법의 장단점은 다음과 같습니다. 장점 : 가장 간편하다. 단점 : 파일이 너무 큰 경우 업로드가 어..

Python/Utils 2022.08.23

파이썬 활용 pdf 파일 내 텍스트 추출 방법 정리(pypdf2, tika)

Python pdf text 읽기 파이썬으로 pdf 파일에서 텍스트를 추출해내는 방법에 대하여 다루어보도록 하겠습니다. 여기에는 매우 다양한 방법이 있지만 여기서는 간편한 방법 예시 2가지로 pypdf2 모듈과 tika 모듈을 활용한 예제를 살펴보겠습니다. 이 두 모듈이 설치되어 있지않다면 먼저 아래 명령어로 사용할 모듈을 설치해주세요. !pip install pypdf2 !pip install tika 아래의 매우 간단한 텍스트 두 줄이 있는 pdf_1.pdf 파일을 예시로 설명하겠습니다. pypdf2 모듈 활용 방법 먼저, PdfFileReader를 활용하여 아래의 형식으로 파일 디렉토리와 읽기 모드(rb) 부분을 지정해줍니다. from PyPDF2 import PdfFileReader pdf1 = ..

Python/Utils 2022.08.22

윈도우 11 시스템 복원 방법(이전 시점 되돌리기)

Windows 11 시스템 복구 과정 정리 윈도우 11에서 특정 때로 시스템을 되돌리는 방법인 시스템 복원 방법을 살펴보도록 하겠습니다. 1. 내 PC -> 속성 탭 들어가기 먼저, 아무 폴더나 들어간 뒤, 좌측의 내 PC 항목에 마우스 오른쪽 클릭을 하여 나타나는 탭 중 속성 탭을 클릭해줍니다. 2. 시스템 보호 메뉴 진입 Windows 11 기준, 장치 사양 탭 내의 관련 링크에 있는 시스템 보호 링크로 들어갑니다. 3. 시스템 복원 버튼 클릭 윗쪽에 보이는 시스템 복원 버튼을 클릭해줍니다. 4. 복구할 지점 선택 시스템 복원 버튼 클릭 후 가장 최근 시점 항목이 추가로 제안될 수도 있습니다. 원하시는 복구 지점에 대한 항목을 선택해주신 뒤, 다음 버튼을 클릭하시면 됩니다. 위처럼 최근 지점 선택지가..

2022.08.18

파이썬 예약어 종류 출력 방법, 예약어의 의미(변수명 지정 불가)

Python 예약어 확인하기 / 예약어란? 현재 버전의 파이썬에서 예약어의 종류를 출력해보고 예약어가 갖는 의미에 대하여 정리해보도록 하겠습니다. 예약어 종류 print 방법 파이썬에서 예약어 종류를 출력하는 방법은 간단합니다. keyword 모듈을 import한 뒤, kwlist 속성을 출력해주시면 됩니다. import keyword print(keyword.kwlist) # 출력 결과 예시 : 파이썬의 버전마다 약간씩 다를 수도 있습니다. ['False', 'None', 'True', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', ..

반응형