Transformers T5, GPT2 등 Model Parallelism Transformers 라이브러리 내 T5, GPT-2 등 파라미터 사이즈가 큰 일부 모델에 대하여 모델 파라미터 병렬처리를 간단하게 할 수 있는 parallelize 함수와 device map의 사용 방법에 대해서 다루어보도록 하겠습니다. 이 글은 HuggingFace의 공식 document 내용을 바탕으로 작성되었습니다. T5 모델 병렬처리 예시 Transformers에서 제공하는 T5 모델 크기의 attention module의 개수에 따라 아래처럼 device마다 할당할 module의 번호를 지정해주시면 됩니다. t5-small은 6개, t5-base는 12개, t5-large, t5-3b 및 t5-11b는 24개의 att..