반응형
OPENAI에서 최근 공개된 gpt-4-vision-preview 모델을 활용하여
이미지의 정보를 같이 활용하여 GPT에게 질문을 하는 Python 코드 예시를
간략하게 다루어보도록 하겠습니다.
이 예제에서 사용한 이미지는 다음과 같은 고양이, 강아지가 2마리씩 있는 사진입니다.
(출처는 pixabay 입니다.)
OPENAI 이미지 활용 모델 사용 예제
이미지 input을 지원하는 gpt-4-vision-preview 모델로
이미지에 대한 질문을 던진 예시 파이썬 코드 스니펫은 다음과 같습니다.
import openai # pip install openai
OPENAI_API_KEY = "sk-..." # API KEY
client = openai.OpenAI(api_key=OPENAI_API_KEY)
response = client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url":"https://cdn.pixabay.com/photo/2018/10/01/09/21/pets-3715733_1280.jpg",
}
},
],
},
{
"role": "user",
"content": [
{"type": "text", "text": "여기서 강아지는 몇 마리인가요?"},
],
}
],
max_tokens=1000,
)
# 응답 출력
print(response.choices[0].message.content) # 이 사진에는 강아지가 두 마리 있습니다.
여기서 OPENAI API KEY가 필요하며,
이미지는 url을 기준으로 input으로 넣어주는 점에 유의해주세요.
구글 드라이브를 통하여 이미지 url을 생성하는 방법은 아래 링크의 글을 참고하시면 됩니다.
그리고, 유사한 방식으로 이미지를 여러 장 동시에 넣는 등의 기능도 지원하고 있는데,
더 상세한 기능이나 유의 사항 등이 궁금하시다면
공식 OPENAI document(https://platform.openai.com/docs/guides/vision)
를 참고해주시면 됩니다.
'Python > NLP Code' 카테고리의 다른 글
파이썬 OPENAI 텍스트 임베딩 모델 사용 및 유사도 구하기 예제 (2) | 2024.02.14 |
---|---|
ChatGPT API에서 이전 대화 기록을 반영하여 호출하는 방법 (1) | 2023.10.07 |
ChatGPT, GPT-4 토큰 개수 카운팅 및 인코딩/디코딩 방법(파이썬 tiktoken 모듈 활용) (0) | 2023.09.19 |