목차
Reference
현대 임베딩 모델은 대부분 트랜스포머(Transformer) 아키텍처에 기반하고 있으며, 이 구조를 어떻게 활용하느냐에 따라 크게 인코더(Encoder) 기반과 디코더(Decoder) 기반으로 분류할 수 있음
트랜스포머 아키텍처 개요
2017년 구글이 "Attention is All You Need" 논문에서 제안한 혁신적인 모델 구조
기존 RNN, LSTM 등의 순차적 처리 방식에서 벗어나 자기 주의(self-attention) 메커니즘을 도입
병렬 처리가 가능해 학습 효율성이 크게 향상되었으며, 장거리 의존성(long-range dependency) 문제를 효과적으로 해결
원래는 인코더-디코더 구조이지만, 실제 구현에서는 인코더만 또는 디코더만 사용하는 변형 모델들이 등장
인코더(Encoder) 기반 모델
<aside> 💡
인코더는 정보를 압축하는 장치라고 생각하면 됩니다. 예를 들어, "나는 오늘 행복하다"라는 문장이 있으면, 인코더는 이 문장 전체를 보고 "누가(나), 언제(오늘), 어떤 감정(행복)"이라는 핵심 정보를 벡터에 담습니다.
</aside>
디코더(Decoder) 기반 모델
<aside> 💡
디코더는 정보를 해석하고 생성하는 장치입니다. 예를 들어, "나는 학교에"라는 시작 텍스트가 주어지면, 디코더는 이를 바탕으로 "갔다", "다닌다" 같은 다음 단어를 생성할 수 있습니다.
</aside>