RAG vs CAG 비교 분석
RAG vs CAG 비교 분석
최근 LLM 분야에서 CAG가 RAG의 대안으로 주목받고 있습니다. CAG는 주로 Cache-Augmented Generation을 의미하며, 일부 문헌에서는 Context-Augmented Generation으로도 사용됩니다.
1. 핵심 개념 비교
RAG (Retrieval-Augmented Generation)
- 질문이 들어올 때마다 외부 데이터베이스에서 관련 문서를 실시간으로 검색
- 검색된 청크를 프롬프트에 추가하여 생성
- 벡터 데이터베이스 + 검색 시스템 필요
CAG (Cache-Augmented Generation)
- 모든 관련 문서를 사전에 LLM의 확장된 context window에 로드
- KV(Key-Value) 캐시를 미리 계산하여 저장
- 추론 시 실시간 검색 없이 캐시된 정보만 활용
2. 주요 차이점
| 구분 | RAG | CAG |
|---|---|---|
| 지연시간 | 검색 오버헤드로 느림 | 40배 이상 빠름 (일부 실험) |
| 정확도 | 검색 오류 가능성 | 전체 맥락 활용으로 높은 정확도 |
| 시스템 복잡도 | 높음 (검색+생성 통합) | 낮음 (검색 단계 제거) |
| 데이터 규모 | 대규모 동적 데이터 적합 | 제한적이고 안정적인 데이터 |
| 비용 | 요청당 일정 | 초기 로드 비용 높음, 이후 저렴 |
3. 장단점 분석
RAG의 장점
- 대규모 지식 베이스 처리 가능
- 실시간 정보 업데이트 용이
- 최신 정보 접근 가능
- 메타데이터 필터링 효과적
RAG의 단점
- 검색 지연 시간 발생
- 문서 선택 오류 가능성
- 청킹 전략이 복잡함
- 시스템 유지보수 부담
CAG의 장점
- 검색 지연 제거로 빠른 응답
- 전체 문서 맥락 활용으로 정확도 향상
- 시스템 구조 단순화
- 멀티 스텝 추론에 유리
CAG의 단점
- context window 제한 (현재 1-2M 토큰)
- 정보 업데이트 시 재로드 필요
- 초기 캐싱 비용 높음
- 동적 데이터에 부적합
4. 사용 시나리오
RAG 선택 기준
- 대규모, 빠르게 변화하는 지식 베이스
- 실시간 최신 정보 필요
- 뉴스, API 통합, 동적 콘텐츠
- 수백만 개 문서 처리
CAG 선택 기준
- 제한적이고 안정적인 지식 베이스
- 속도와 단순성 우선
- 기술 매뉴얼, 내부 보고서, 법률 문서
- 멀티 스텝 추론 작업
5. 최신 동향
2024년 12월 "Don't Do RAG" 논문 발표 이후 CAG가 주목받고 있으며, Gemini 2.5 Pro (2M 토큰), GPT-4 등 확장된 context window를 가진 모델들이 CAG 활용을 가능하게 만들고 있습니다. 그러나 CAG는 RAG를 완전히 대체하는 것이 아니라, 특정 시나리오에서 더 효율적인 대안으로 보는 것이 적절합니다.
댓글
댓글 쓰기