Python/NLP Code

GPT 이미지+텍스트 멀티모달 API 활용 파이썬 코드 예제(gpt-4-vision-preview)

jimmy_AI 2024. 1. 31. 23:30
반응형

OPENAI에서 최근 공개된 gpt-4-vision-preview 모델을 활용하여

이미지의 정보를 같이 활용하여 GPT에게 질문을 하는 Python 코드 예시를

간략하게 다루어보도록 하겠습니다.

 

이 예제에서 사용한 이미지는 다음과 같은 고양이, 강아지가 2마리씩 있는 사진입니다.

(출처는 pixabay 입니다.)

 

 

OPENAI 이미지 활용 모델 사용 예제

이미지 input을 지원하는 gpt-4-vision-preview 모델로

이미지에 대한 질문을 던진 예시 파이썬 코드 스니펫은 다음과 같습니다.

import openai # pip install openai

OPENAI_API_KEY = "sk-..." # API KEY
client = openai.OpenAI(api_key=OPENAI_API_KEY)

response = client.chat.completions.create(
    model="gpt-4-vision-preview",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url":"https://cdn.pixabay.com/photo/2018/10/01/09/21/pets-3715733_1280.jpg",
                    }
                },
            ],
        },
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "여기서 강아지는 몇 마리인가요?"},
            ],
        }
    ],
    max_tokens=1000,
)

# 응답 출력
print(response.choices[0].message.content) # 이 사진에는 강아지가 두 마리 있습니다.

 

여기서 OPENAI API KEY가 필요하며,

이미지는 url을 기준으로 input으로 넣어주는 점에 유의해주세요.

 

구글 드라이브를 통하여 이미지 url을 생성하는 방법은 아래 링크의 글을 참고하시면 됩니다.

 

구글 드라이브 - 이미지를 업로드하여 이미지 URL 만들기

구글 드라이브 페이지 접속하기 구글 로그인이 된 상태에서 구글 홈페이지에 접속 우측 상단 프로필 왼쪽의 점 9개 아이콘 클릭 후 '드라이브' 선택 구글 드라이브에 이미지 업로드하기 '새로 만

luvris2.tistory.com

 

그리고, 유사한 방식으로 이미지를 여러 장 동시에 넣는 등의 기능도 지원하고 있는데,

 

더 상세한 기능이나 유의 사항 등이 궁금하시다면

공식 OPENAI document(https://platform.openai.com/docs/guides/vision)

를 참고해주시면 됩니다.