Research Trends

Prompt Caching은 LLM(대형 언어 모델) 추론의 비용과 속도를 혁신적으로 개선하는 핵심 기술이다. 2024년부터 OpenAI, Anthropic, Google, Amazon Bedrock 등 주요 서비스 제공자들이 이를 본격 지원하며, 실무에서 가장 효율적인 최적화 기법으로 자리매김한 상태이다.

왜 Prompt Caching인가?

LLM이 문장을 생성할 때, 매번 앞부분부터 끝까지 모든 내용을 다시 읽고 계산하는 과정을 거친다. 특히 "당신은 친절한 AI 비서입니다."와 같은 긴 공통 앞부분(prefix)을 반복해서 계산하는 것은 큰 낭비이다. Prompt Caching은 이 공통 앞부분의 계산 결과인 KV 캐시를 메모리에 저장해두고, 다음 요청 시 해당 앞부분의 재계산을 건너뛰어 새로운 부분만 처리하는 방식이다. 이 기술로 추론 지연 시간(latency)을 80~85% 감소시키고, 입력 토큰 비용을 50~90% 절감하는 효과를 얻는다.

실제 작동 방식은 Prefill 단계에서 KV 텐서를 계산하고, Prefix가 정확히 일치하면 이 단계를 건너뛰어 곧바로 Decode 단계를 진행하는 메커니즘이다. OpenAI는 gpt-4o 이후 모델에 자동 캐싱을 적용하며, Anthropic은 cache_control 마커로 캐싱 구간을 직접 지정하는 유연성을 제공한다. Amazon Bedrock과 Google Vertex 또한 캐시 체크포인트 지정 방식으로 80~90%의 비용 절감 효과를 달성하는 기술이다. vLLM, SGLang 등 오픈소스는 PagedAttention과 RadixAttention을 활용한 자동 Prefix Caching을 기본으로 지원하는 발전이다.

2025~2026년에는 장기 에이전트 작업 최적화, 임베딩 유사성 기반의 시맨틱 캐싱, 효율적인 캐시 관리 정책, 보안 강화, 계층적 저장소 활용 등 다양한 연구가 활발한 시점이다. 멀티턴 에이전트 작업에서 시스템 프롬프트와 도구 정의만 캐싱하여 비용을 41~80% 절감하고, TTFT를 13~31% 개선하는 성과를 이뤘다. 정확한 매칭을 넘어 임베딩 유사도를 활용해 캐시 히트율을 높이는 시맨틱/근사 캐싱은 잠재력이 큰 분야이다. Tail-Optimized LRU, 우선순위 기반, 저탄소 시점 캐싱 등 새로운 캐시 제거 및 보존 정책 연구가 진행 중이다.

보안과 관리의 진화

멀티테넌트 환경에서의 KV 캐시 공유로 인한 프롬프트 유출 공격에 대응하기 위해 캐시 격리 및 암호화 연구는 필수적인 과제이다. GPU 메모리 부족 문제를 해결하고 히트율을 유지하기 위한 CPU/SSD로의 KV 캐시 오프로딩 연구도 중요한 발전이다. 사용자가 캐시 블록을 직접 관리할 수 있는 Programmatic / Modular Caching API는 LLM 활용의 새로운 방향이다.

Prompt Caching: LLM 추론 효율화의 새로운 지평

왜 Prompt Caching인가?

보안과 관리의 진화

최신 연구 논문 리포트

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks

Tail-Optimized Caching for LLM Inference

Cache Your Prompt When It’s Green — Carbon-Aware Caching

From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching

A Survey on Large Language Model Acceleration based on KV Cache Management