'vision encoder' 태그의 글 목록

이미지를 이용하여 텍스트를 생성하는 모델 Image to Text(이미지 캡셔닝)

이미지 인코더와 LLM 디코더를 사용하여 이미지를 텍스트로 변환하는 모델을 학습시킬 수 있습니다. 이러한 모델은 이미지 캡셔닝(image captioning)이라고도 불립니다. 이미지 인코더는 이미지를 의미 있는 특성 벡터로 인코딩하고, LLM 디코더는 이 벡터를 활용하여 텍스트를 생성하는 역할을 합니다. 이미지 인코더: 이미지 인코더는 입력된 이미지를 특성 벡터로 인코딩합니다. 이 특성 벡터는 이미지의 의미를 포함하고 있으며, 일반적으로 CNN(Convolutional Neural Network) 기반의 모델을 사용하여 추출합니다. 예를 들면, VGG16, ResNet, 또는 EfficientNet과 같은 사전 훈련된 모델을 활용할 수 있습니다. LLM 디코더 (GPT-2 기반): LLM 디코더는 이미..

데이터 분석/머신러닝 2023.07.27

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Family in August

vision encoder 1

티스토리툴바