목차
Reference
LLM은 아무리 똑똑해도 이렇게 말해요:
“난 2023년까지 훈련된 지식만 알아. 네가 준 문서만 참고해서 대답할게!”
그러니 RAG 시스템에서는 “문서를 얼마나 잘 찾아주느냐”가 곧 “답변의 정확도”로 직결돼요.
조건 | 설명 |
---|---|
✔️ 관련 있는 문서를 잘 찾아야 함 | 질문에 진짜 필요한 정보만 가져와야 해요 |
❌ 관련 없는 문서는 걸러야 함 | 불필요한 내용이 섞이면 LLM도 헷갈려요 |
🧠 적절한 검색 방식 선택 | 키워드 vs 의미 검색, 목적에 따라 달라요 |
📌 어떤 기준으로 “관련 문서”를 판단할까?
방식 | 설명 | 대표 알고리즘 |
---|---|---|
키워드 기반 (Sparse Retriever) | 사용자가 입력한 단어와 문서에 있는 단어가 얼마나 비슷한지 비교 | TF-IDF, BM25 |
의미 기반 (Dense Retriever) | 질문과 문서의 **의미(문장 전체 맥락)**를 벡터로 비교 | Embedding + FAISS, Chroma 등 |
혼합 방식 (Ensemble) | 둘 다 활용해서 더 정밀하게 검색 | Sparse + Dense 조합 |