Document Loader

실습 코드: https://github.com/teddylee777/langchain-kr/tree/main/06-DocumentLoader

LangChain Document Loader 비교

Document Loader	기반 라이브러리/기술	주요 특징	적합한 사용 사례	장점	단점
✅ PDF Loaders
PyPDFLoader	PyPDF2	기본적인 PDF 파싱	단순한 텍스트 추출	- 간단한 설정

빠른 처리 속도 | - 복잡한 레이아웃 처리 제한적
이미지 처리 불가 | | PDFMinerLoader | PDFMiner | 더 정교한 PDF 분석 | 레이아웃 인식이 필요한 문서 | - 텍스트 위치와 스타일 정보 추출
더 정확한 구조 추출 | - PyPDF2보다 느림
설정이 더 복잡함 | | PyMuPDFLoader | PyMuPDF (fitz) | 고성능 PDF 처리 | 복잡한 PDF, 이미지 포함 문서 | - 매우 빠른 처리
이미지 추출 가능
풍부한 메타데이터 | - 의존성 관리가 복잡할 수 있음 | | UnstructuredPDFLoader | Unstructured.io | 구조화된 데이터 추출 | 복잡한 레이아웃, 표 포함 문서 | - 요소별 분류
표 데이터 구조화
다양한 요소 인식 | - 처리 속도 느림
추가 의존성 필요 | | ✅ HWP Loaders | | | | | | | HWPLoader | pyhwp, hwp5 | 한글 문서 처리 | 한글 문서(.hwp) | - 한글 문서 지원
메타데이터 추출 | - 설치 복잡
최신 한글 버전 호환성 문제 가능 | | ✅ Spreadsheet Loaders | | | | | | | CSVLoader | csv (Python 표준) | CSV 파일 처리 | 표 형식 데이터 | - 간단한 구현
빠른 처리
헤더 지원 | - 복잡한 CSV 구조 처리 제한적 | | ExcelLoader | openpyxl, pandas | Excel 파일 처리 | 엑셀 스프레드시트 | - 여러 시트 지원
서식 정보 유지
다양한 Excel 형식 지원 | - 대용량 파일에서 메모리 사용량 많음 | | ✅ Office Document Loaders | | | | | | | Docx2txtLoader | docx2txt | Word 문서 처리 | Microsoft Word 문서 | - 간단한 설정
텍스트와 표 추출 | - 복잡한 형식 손실
이미지 처리 불가 | | UnstructuredWordDocumentLoader | Unstructured.io | 고급 Word 문서 처리 | 복잡한 Word 문서 | - 구조 보존
요소별 분류
메타데이터 추출 | - 처리 속도 느림 | | PowerPointLoader | python-pptx | PowerPoint 프레젠테이션 처리 | PowerPoint 파일 | - 슬라이드별 구분
텍스트 및 노트 추출 | - 복잡한 레이아웃과 이미지 처리 제한적 | | ✅ Web-based Loaders | | | | | | | WebBaseLoader | requests, BeautifulSoup | 웹페이지 스크래핑 | 웹 콘텐츠 추출 | - URL에서 직접 로드
HTML 파싱
JavaScript 렌더링 옵션 | - 동적 콘텐츠 처리 제한적
사이트별 맞춤설정 필요할 수 있음 | | ✅ Text Loaders | | | | | | | TextLoader | Python 표준 | 일반 텍스트 파일 처리 | 텍스트 파일(.txt) | - 매우 간단한 구현
다양한 인코딩 지원 | - 구조화된 정보 손실
단순 텍스트만 처리 | | ✅ Academic Loaders | | | | | | | ArxivLoader | arxiv API, PyMuPDF | 학술 논문 검색 및 로드 | 학술 연구 | - arXiv에서 직접 검색
PDF 변환
메타데이터 포함 | - API 제한
arXiv에 제한됨 | | ✅ Directory Loaders | | | | | | | DirectoryLoader | 다양함 | 폴더 내 모든 파일 처리 | 다수의 문서 일괄 처리 | - 재귀적 디렉토리 탐색
다양한 파일 형식 지원
병렬 처리 옵션 | - 파일별 최적화 부족
메모리 사용량 많을 수 있음 | | ✅ 특수 분석 Loaders | | | | | | | UpstageLayoutAnalysisLoader | Upstage API | 고급 레이아웃 분석 | 복잡한 레이아웃 문서 | - 고품질 레이아웃 분석
구조적 이해
표와 그래프 식별 | - API 의존
설정 복잡
비용 발생 가능 | | LlamaParserLoader | LlamaIndex | 다양한 문서 파싱 | 다양한 문서 형식 통합 처리 | - 통합된 인터페이스
다양한 파서 지원
메타데이터 보존 | - 추가 의존성
LlamaIndex 필요 |

데이터베이스 커넥터

SQL 데이터베이스 로더

LangChain은 다양한 SQL 데이터베이스에 연결하는 로더를 제공합니다:

SQLDatabaseLoader
- 지원 데이터베이스: PostgreSQL, MySQL, SQLite, Oracle, MS SQL Server 등
- 특징:
  - SQLAlchemy를 사용하여 다양한 데이터베이스 지원
  - 쿼리 결과를 Document 객체로 변환
  - 메타데이터에 테이블 정보와 스키마 포함
- 사용 예:
```
from langchain.document_loaders import SQLDatabaseLoader

loader = SQLDatabaseLoader(
    "postgresql://username:password@localhost:5432/dbname",
    "SELECT * FROM users"
)
documents = loader.load()
```
증분 로딩 기능
- 타임스탬프 열을 기준으로 새 데이터만 로드
- 증분 쿼리 빌더를 사용한 효율적인 로딩
- 대규모 데이터베이스의 점진적 처리 지원
데이터베이스 문맥 활용
- 테이블 스키마 정보를 메타데이터로 포함
- 외래 키 관계를 통한 관련 데이터 로드
- SQL 에이전트와의 통합 지원

NoSQL 데이터베이스 로더

MongoDBLoader

MongoDB 컬렉션에서 문서 로드
특징:
- BSON 문서 구조 보존
- 중첩 객체와 배열 처리
- 필터 쿼리 지원

사용 예:

from langchain.document_loaders import MongoDBLoader

loader = MongoDBLoader(
    connection_string="mongodb://localhost:27017/",
    db_name="your_db",
    collection_name="your_collection"
)
documents = loader.load()

ElasticsearchLoader

Elasticsearch 인덱스에서 문서 로드
특징:
- 복잡한 검색 쿼리 지원
- 스크롤 API를 통한 대량 데이터 처리
- 문서 스코어와 순위 정보 보존

사용 예:

from langchain.document_loaders import ElasticsearchLoader

loader = ElasticsearchLoader(
    es_url="<http://localhost:9200>",
    index_name="your_index",
    query={"match_all": {}}
)
documents = loader.load()

API 통합

REST API 로더

APILoader

특징:
- HTTP 요청을 통한 데이터 로드
- 다양한, HTTP 메서드 지원 (GET, POST, PUT 등)
- 응답 파싱 및 문서 변환 기능

사용 예:

from langchain.document_loaders import APILoader

loader = APILoader(
    api_url="<https://api.example.com/data>",
    params={"limit": 100},
    headers={"Authorization": "Bearer token"},
    data_key="results"  # JSON 응답에서 데이터를 추출할 키
)
documents = loader.load()

페이지네이션 및 레이트 리밋 관리
- 자동 페이지네이션 처리
- 백오프 전략을 통한 API 제한 관리
- 요청 간 지연 설정 기능
인증 및 보안
- 다양한 인증 방식 지원 (Bearer, Basic, OAuth 등)
- API 키 및 토큰 관리
- 헤더 및 쿠키 기반 인증

GraphQL 로더

GraphQLLoader

특징:
- GraphQL 엔드포인트에 쿼리 실행
- 복잡한 쿼리 구조 지원
- 중첩 데이터 및 관계 처리

사용 예:

from langchain.document_loaders import GraphQLLoader

query = """
query {
  posts {
    id
    title
    content
    author {
      name
    }
  }
}
"""

loader = GraphQLLoader(
    graphql_endpoint="<https://api.example.com/graphql>",
    query=query,
    headers={"Authorization": "Bearer token"}
)
documents = loader.load()