RAG 시스템의 한계와 극복 방안

단점: 비교 분석 질문에 대해 근본적 한계를 보임
- 질문과 관련된 일부 문서만 검색하여 전체 데이터에 대한 종합적 분석이 불가능하고, 검색된 문서 내용만 처리하므로 다른 문서의 중요 정보를 놓칠 수 있습니다.
- "가장 밝은 제품“, “제일 높은 건물" 같은 비교 질문에는 모든 항목의 동시 비교가 필요하지만 RAG는 검색된 소수 문서만 볼 수 있어 정확한 비교가 어렵고, 수치 분석이나 집계 기능도 부족합니다.
- 예시: 램프 데이터 pdf 100장 학습 ⇒ 이 중에 가장 밝은 램프가 뭐야?
  - 일부만 비교해서 알려줌. 환각과 비슷한 현상
이러한 한계를 극복하기 위한 접근법으로 세 가지 확장 방식이 있습니다.
1. 문서 전처리 및 구조화 방식은 문서에서 제품명, 밝기, 전력값 등 주요 속성을 추출하여 메타데이터로 저장하고 검색에 활용합니다.
2. 사전 분석 단계 추가 방식은 임베딩 전에 전체 문서를 분석하여 비교 데이터를 미리 생성하고 저장합니다.
3. 반복적 검색 방식은 첫 검색 결과를 분석하여 추가 검색을 수행함으로써 정확도를 점진적으로 높입니다.
더 발전된 접근법으로 하이브리드 시스템과 Agent 기반 방식이 있습니다.
- 하이브리드 시스템
  - 정형 DB와 벡터 DB를 같이 이용
아직 랭체인 버전이 0.3-4밖에 안돼서 문법이 중요하진 않음. 특성을 이해하는데 집중