반응형

Bert 3

CLS 토큰이란? / 파이썬 BERT CLS 임베딩 벡터 추출 예제

[CLS] 토큰이란? BERT, RoBERTa 등의 언어 모델에서 문장 토큰들이 인코딩된 결과를 활용하는 것이 유용한 경우가 많은데 가장 첫 위치에 문장 공통 토큰인 [CLS]를 두어 해당 위치의 임베딩 결과를 대표 임베딩으로 주로 사용하게 되었습니다. BERT-base 크기의 모델의 경우 토큰 길이는 512이고 각 토큰 위치에서의 임베딩 결과는 768 차원 벡터로, 문장 input 1개에 대한 총 output 텐서의 shape는 512 * 768이 됩니다. 이 중 가장 앞 위치의 768 차원 벡터를 가져와 해당 문장의 대표 임베딩 결과로 활용하는 것이고, 흔히 NLP 관련 논문에서 CLS 토큰 임베딩으로 일컫는 것이 바로 이것입니다. CLS 임베딩 벡터 추출 코드 예제 먼저, BERT-base 모델을 ..

Python/NLP Code 2022.09.03

파이썬 BERT 모델 활용 IMDB 데이터셋 감성 분석 classification 예제

허깅페이스 BERT 영화 리뷰 감정 분류 튜토리얼 파이썬에서 transformers 라이브러리를 활용하여 BERT 구조 모델을 감성 분석 classification 과정에서 이용하는 예제에 대하여 다루어보도록 하겠습니다. (데이터셋으로는 IMDB 영화 감성 분석 데이터셋을 사용하겠습니다.) 참고로, 이 글은 아래 링크의 허깅페이스 공식 사이트 글의 내용을 기반으로 작성되었으며, 여기서는 해당 공식 글의 해설을 위주로 글을 전개하도록 하겠습니다. Text classification To fine-tune a model in TensorFlow, start by converting your datasets to the tf.data.Dataset format with to_tf_dataset. Specify..

Python/NLP Code 2022.06.18

BERT 모델 MLM 기반 pre-train 파이썬 코드 예제

Transformers 라이브러리 BERT corpus pre-train 실습 BERT 모델을 사전 학습하는 방법인 MLM(Masked Language Modeling) 기법을 적용하여 원하는 corpus로 학습된 pre-trained BERT를 생성하는 파이썬 코드 예시를 살펴보겠습니다. Transformers 라이브러리의 기능을 사용하여 진행한 예제이며, random word 토큰 선별 과정을 제외하고는 아래 사이트의 코드를 참조하였습니다. Masked-Language Modelling With BERT Transformer models like BERT are incredibly powerful when fine-tuned for specific tasks using masked-language m..

Python/NLP Code 2022.04.03
반응형