Vision Encoder Decoder Model 샘플 코드

데이터 분석/머신러닝

Vision Encoder Decoder Model 샘플 코드

Family in August 2023. 7. 27. 23:35

Hugging Face의 VisionEncoderDecoderModel은 이미지와 텍스트를 포함한 다중 모달리티 데이터를 처리하기 위한 모델 클래스입니다. 이 모델은 이미지 인코더와 텍스트 디코더를 함께 사용하여 이미지에 대한 캡션 생성 또는 이미지와 텍스트 간의 연관 작업을 수행하는 데 사용됩니다.

VisionEncoderDecoderModel은 두 개의 기본 모델을 하나의 모델로 결합한 형태입니다:

이미지 인코더 (Vision Encoder): 이미지를 특성 벡터로 인코딩하는 모델입니다. 주로 Convolutional Neural Network (CNN) 기반의 사전 훈련된 모델을 사용합니다. 이 이미지 인코더는 이미지를 의미 있는 특성 벡터로 변환하는 역할을 합니다.
텍스트 디코더 (Language Model Decoder): 인코딩된 이미지와 텍스트의 시퀀스를 입력으로 받아 텍스트를 생성하는 언어 모델(예: GPT-2)입니다. 이 디코더는 이미지와 텍스트의 정보를 활용하여 캡션 생성이나 다중 모달리티 작업을 수행하는 데 사용됩니다.

VisionEncoderDecoderModel은 이미지와 텍스트를 한 번에 처리하기 위해 입력 인터페이스와 출력 인터페이스가 함께 정의되어 있습니다. 다음은 간단한 예시를 통해 VisionEncoderDecoderModel을 사용하는 방법을 보여줍니다

from transformers import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
import torch
from PIL import Image

model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)



max_length = 16
num_beams = 4
gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
def predict_step(image_paths):
  images = []
  for image_path in image_paths:
    i_image = Image.open(image_path)
    if i_image.mode != "RGB":
      i_image = i_image.convert(mode="RGB")

    images.append(i_image)

  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
  pixel_values = pixel_values.to(device)

  output_ids = model.generate(pixel_values, **gen_kwargs)

  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
  preds = [pred.strip() for pred in preds]
  return preds


predict_step(['doctor.e16ba4e4.jpg']) # ['a woman in a hospital bed with a woman in a hospital bed']

위의 예제는 사전 학습된 Encoder-Decoder Model로 Image에 대한 Captioning 기능을 제공합니다.

VisionEncoderDecoderModel은 이미지와 텍스트에 대해 통합적으로 다중 모달리티 작업을 수행할 수 있게 해 줍니다.

다음에는 이 사전 학습된 모델을 전이 학습을 통해 파인 튜닝하는 방법에 대해 알아보겠습니다.

저작자표시 (새창열림)

'데이터 분석 > 머신러닝' 카테고리의 다른 글

Hugging Face, Training Cluster As a Service 공개 (2)	2023.09.08
Hugging Face 모델 학습 Checkpoint 저장 주기 변경 (0)	2023.07.28
디코더(Decoder)의 특수 토큰(Special Token) (0)	2023.07.27
Transformer Beam Search 란? (0)	2023.07.27
Transformer hidden_states 란? (0)	2023.07.27

현재글Vision Encoder Decoder Model 샘플 코드

기초문법, 실업급여, 알고리즘, pandas, 게임 코딩, 코딩 테스트, 게임 만들기, 코딩 학습, Python, 한국장애인고용공단, 데이터 분석, dataframe, 판다스, 파이썬 게임, 파이썬, 빅데이터, 코테, 연말정산, 머신러닝, 문제풀이,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Family in August