텍스트를 숫자로 바꾸는 텍스트 임베딩

Reference

벡터 임베딩 모델의 이해와 활용 : 최적의 임베딩 모델 찾기

임베딩 모델이란?

임베딩은 텍스트, 이미지, 오디오 등의 비정형 데이터를 컴퓨터가 처리할 수 있는 수치 벡터(숫자 배열)로 변환하는 과정
텍스트 임베딩은 특히 단어, 문장, 문서를 의미적 관계를 보존하는 벡터 공간으로 매핑함

임베딩 모델 분류

1. 구조 기반 분류

현대 임베딩 모델은 대부분 트랜스포머(Transformer) 아키텍처에 기반하고 있으며, 이 구조를 어떻게 활용하느냐에 따라 크게 인코더(Encoder) 기반과 디코더(Decoder) 기반으로 분류할 수 있음
트랜스포머 아키텍처 개요
- 2017년 구글이 "Attention is All You Need" 논문에서 제안한 혁신적인 모델 구조
- 기존 RNN, LSTM 등의 순차적 처리 방식에서 벗어나 자기 주의(self-attention) 메커니즘을 도입
- 병렬 처리가 가능해 학습 효율성이 크게 향상되었으며, 장거리 의존성(long-range dependency) 문제를 효과적으로 해결
- 원래는 인코더-디코더 구조이지만, 실제 구현에서는 인코더만 또는 디코더만 사용하는 변형 모델들이 등장
인코더(Encoder) 기반 모델
- 동작 원리: 입력 텍스트의 양방향 컨텍스트를 모두 고려하여 문맥적 의미를 포착
- 구조적 특징: 양방향(bidirectional) 정보 흐름으로 문장 전체의 문맥을 동시에 고려
- 대표 모델: BERT(Bidirectional Encoder Representations from Transformers)
- 변형/개선 모델:
  - RoBERTa: 더 많은 데이터와 최적화된 학습 방법으로 BERT 개선
  - ALBERT: 파라미터 수를 줄이고 효율성을 높인 경량화 버전
  - DistilBERT: 지식 증류(knowledge distillation) 기법으로 모델 크기를 줄이면서 성능 유지
  - DeBERTa: 향상된 주의 메커니즘을 사용해 성능 개선
  - E5: Microsoft의 문장 임베딩에 특화된 모델
<aside> 💡

인코더는 정보를 압축하는 장치라고 생각하면 됩니다. 예를 들어, "나는 오늘 행복하다"라는 문장이 있으면, 인코더는 이 문장 전체를 보고 "누가(나), 언제(오늘), 어떤 감정(행복)"이라는 핵심 정보를 벡터에 담습니다.

</aside>
디코더(Decoder) 기반 모델
- 동작 원리: 이전 토큰을 바탕으로 다음 토큰을 예측하는 자기회귀(autoregressive) 방식으로 작동
- 구조적 특징: 단방향(왼쪽에서 오른쪽) 정보 흐름으로 순차적 처리
- 대표 모델: GPT(Generative Pre-trained Transformer)
- 변형/개선 모델:
  - Llama-3: Meta의 오픈소스 LLM 시리즈, 임베딩 생성에도 활용 가능
  - Mistral-7B: 경량화된 고성능 오픈소스 모델
  - Gemma-2: Google의 소형 LLM
  - Claude, GPT-4: 상업용 대규모 언어 모델, 임베딩 생성 API도 제공
<aside> 💡

디코더는 정보를 해석하고 생성하는 장치입니다. 예를 들어, "나는 학교에"라는 시작 텍스트가 주어지면, 디코더는 이를 바탕으로 "갔다", "다닌다" 같은 다음 단어를 생성할 수 있습니다.

</aside>