RAG의 문서 검색기, Retriever | Notion

목차

Reference

🔍 Retriever(검색기)란?

📚 “LLM에게 보여줄 문서를 찾아주는 사서” 역할

🤔 왜 Retriever가 중요할까?

LLM은 아무리 똑똑해도 이렇게 말해요:

“난 2023년까지 훈련된 지식만 알아. 네가 준 문서만 참고해서 대답할게!”
그러니 RAG 시스템에서는 “문서를 얼마나 잘 찾아주느냐”가 곧 “답변의 정확도”로 직결돼요.

🎯 좋은 Retriever의 조건

조건	설명
✔️ 관련 있는 문서를 잘 찾아야 함	질문에 진짜 필요한 정보만 가져와야 해요
❌ 관련 없는 문서는 걸러야 함	불필요한 내용이 섞이면 LLM도 헷갈려요
🧠 적절한 검색 방식 선택	키워드 vs 의미 검색, 목적에 따라 달라요

🧠 검색 방식: 키워드 vs 의미 기반

📌 어떤 기준으로 “관련 문서”를 판단할까?

방식	설명	대표 알고리즘
키워드 기반 (Sparse Retriever)	사용자가 입력한 단어와 문서에 있는 단어가 얼마나 비슷한지 비교	TF-IDF, BM25
의미 기반 (Dense Retriever)	질문과 문서의 의미(문장 전체 맥락)를 벡터로 비교	Embedding + FAISS, Chroma 등
혼합 방식 (Ensemble)	둘 다 활용해서 더 정밀하게 검색	Sparse + Dense 조합

📌 쉽게 예를 들면?