데이터 분석/머신러닝

디코더(Decoder)의 특수 토큰(Special Token)

Family in August 2023. 7. 27. 23:23
반응형

디코더(Decoder)에 입력되는 특수 토큰(Special Token)은 모델이 텍스트 생성 작업을 수행할 때 특정 목적을 위해 사용되는 토큰들을 말합니다. 이러한 특수 토큰들은 입력 시퀀스에 추가되어 모델이 텍스트를 생성하고 이해하는 데 도움을 줍니다. 주요한 특수 토큰들과 그 역할에 대해 설명합니다:

시작 토큰 (Start Token) - 주로 [CLS] 또는 [BOS] 등의 토큰으로 표시됩니다.

디코더에 입력으로 제공되는 최초의 토큰으로, 텍스트 생성을 시작하는 지점을 나타냅니다.
종료 토큰 (End Token) - 주로 [SEP] 또는 [EOS] 등의 토큰으로 표시됩니다.

디코더가 텍스트 생성을 종료해야 할 지점을 나타냅니다. 이 토큰이 생성되면 텍스트 생성을 종료하게 됩니다.
패딩 토큰 (Padding Token) - 주로 [PAD] 등의 토큰으로 표시됩니다.

입력 텍스트 시퀀스의 길이를 맞추기 위해 사용되는 토큰입니다. 모델이 배치로 입력을 처리할 때 각 시퀀스를 동일한 길이로 맞추는 데 사용됩니다.
언어 ID 토큰 (Language ID Token) - 주로 [LANG1], [LANG2] 등의 토큰으로 표시됩니다.

다국어 모델에서 각 언어를 구분하기 위해 사용되는 토큰입니다. 다양한 언어에 대해 일관성 있는 텍스트 생성을 위해 사용됩니다.
이 외에도 특수 토큰은 작업에 따라 다양하게 사용될 수 있습니다. 특수 토큰은 모델의 학습과 추론 과정에서 중요한 역할을 하며, 모델의 입력 데이터에 포함하여 사용합니다. 모델마다 특수 토큰의 이름과 사용 방법이 다를 수 있으므로, 각 모델의 문서를 참고하여 정확한 특수 토큰과 그 역할을 파악하는 것이 중요합니다.

반응형