Hugging Face의 VisionEncoderDecoderModel은 이미지와 텍스트를 포함한 다중 모달리티 데이터를 처리하기 위한 모델 클래스입니다. 이 모델은 이미지 인코더와 텍스트 디코더를 함께 사용하여 이미지에 대한 캡션 생성 또는 이미지와 텍스트 간의 연관 작업을 수행하는 데 사용됩니다. VisionEncoderDecoderModel은 두 개의 기본 모델을 하나의 모델로 결합한 형태입니다: 이미지 인코더 (Vision Encoder): 이미지를 특성 벡터로 인코딩하는 모델입니다. 주로 Convolutional Neural Network (CNN) 기반의 사전 훈련된 모델을 사용합니다. 이 이미지 인코더는 이미지를 의미 있는 특성 벡터로 변환하는 역할을 합니다. 텍스트 디코더 (Language..