에이전트 네이티브 메모리 시스템은 준비되었는가

Abstract

LLM 에이전트의 메모리는 단순 검색 증강 기법에서, 에이전트 실행 전반에 걸쳐 영속적 정보 저장·검색·갱신·통합·동적 생애주기 거버넌스를 지원하는 데이터 관리 시스템으로 빠르게 진화했다. 그럼에도 기존 평가는 여전히 종단 과제 성공 지표로 메모리를 벤치마크하며, 기저 시스템을 단일 블랙박스로 취급한다. 그 결과 운영 비용, 메모리 모듈 간 아키텍처 트레이드오프, 동적 지식 갱신 하의 견고성 같은 시스템 수준 관심사가 충분히 탐구되지 않았다.

본 연구는 데이터 관리 관점에서 에이전트 메모리를 체계적으로 실험·분석한다. 에이전트 메모리를 표현·저장, 추출, 검색·라우팅, 유지의 네 핵심 모듈로 분해하는 분석 프레임워크를 제안하고, 이 틀 아래 12개 대표 메모리 시스템과 2개 기준선을 11개 데이터셋·5개 워크로드에서 평가한다. 광범위한 종단 평가 결과, 모든 시나리오를 지배하는 단일 아키텍처는 없으며 효과성은 메모리 구조가 워크로드 병목과 얼마나 잘 정렬되는지에 크게 좌우된다. 세밀한 제거 연구로 표현 충실도·검색 정밀도·갱신 정확성·장기 안정성에 대한 각 모듈의 개별 효과를 정량화하고, 현실적 워크로드에서 국소 유지가 전역 재조직보다 비용 효율적임을 보인다.

§ 01

서론Introduction

LLM 에이전트의 빠른 진화는 에이전트 메모리, 즉 장기 상태 기반 실행과 개인화 상호작용을 지원하는 LLM 에이전트의 데이터 관리 시스템 구축에 대한 방대한 연구·산업 노력을 촉발했다. 기존 에이전트 메모리 시스템은 다양한 아키텍처 설계 스펙트럼에 걸쳐 있다.

아키텍처기존 메모리 시스템의 네 가지 설계 계열

스트림·반영형 (예: MemoryBank)

경험을 타임스탬프된 메모리 스트림으로 유지하고, 주기적으로 상위 수준 반영으로 요약해 스트림에 다시 기록한다.

계층 티어형 (예: MemGPT)

메모리를 용량·접근 특성이 다른 여러 레벨로 조직하고, 코어 메모리와 아카이브 저장소를 명시적 이동(축출·승격)으로 분리한다.

지식 그래프형 (예: Mem0ᵍ, Zep)

엔티티·관계와 그 시간적 진화를 구조화 형태(시간적 지식 그래프)로 표현하며, 엔티티 명확화·충돌 해소를 포함한다.

복합 하이브리드형 (예: A-MEM)

스키마 인식 메모리 객체를 여러 저장 기질로 라우팅하고, 런타임 상태(KV 캐시)와 장기 저장(벡터·그래프·키워드)을 분리해 전용 유지 모듈로 관리한다.

그러나 이런 급격한 확산은 데이터 관리 관점의 체계적 평가가 부재한 매우 파편화된 지형을 낳았고, 자연스럽게 질문이 제기된다 — 에이전트 네이티브 메모리 시스템은 준비되었는가? 본 연구는 텍스트·구조적·매개변수적 표현에 걸친 시스템 수준 메모리에 초점을 둔다. 메모리가 보조 모듈인 과제 특화 에이전트 프레임워크가 아니라, LLM의 매개변수 가중치 및 휘발성 컨텍스트 윈도와 분리되어 단일 추론 단계를 넘어 정보를 유지하는 영속적 데이터 관리 시스템을 다룬다.

기존 평가의 네 가지 한계

① 아키텍처 누락 — MemoChat·MemTree·LightMem 등 대표 시스템이 통합 워크로드에서 평가되지 않아 원칙적 교차 비교가 어렵다.

② 단편적 지표 — F1·BLEU 같은 단면적 종단 지표에 의존하며, 증거 수준 검색 충실도·갱신 견고성·장기 안정성을 분리 측정하지 못한다.

③ 비용 미측정 — 인덱스 구축 시간·질의 지연 같은 운영 비용을 시스템 관점에서 거의 측정하지 않는다.

④ 블랙박스화 — 메모리를 기본 데이터 관리 모듈로 분해하지 않고 단일 블랙박스로 취급한다.

본 연구의 기여

(1) 기술 분해와 분류 체계 (§3) — 표현·저장, 추출, 검색·라우팅, 유지의 네 핵심 구성 요소로 분해하고 각 구성 요소의 설계 원리에 따라 구조화된 분류 체계를 수립한다. (2) 종단 성능 평가 (§4) — 통합·공정한 테스트베드(통일된 시간 오버헤드 추적)로 5개 워크로드·11개 데이터셋에서 12개 시스템을 과제 효과성(RQ1)·검색 충실도(RQ2)·갱신 견고성(RQ3)·장기 안정성(RQ4)·운영 비용(RQ5) 다섯 관점에서 평가한다. (3) 세밀한 모듈 평가 (§5) — 한 번에 한 모듈만 수정한 통제된 변형으로 표현 충실도·라우팅 정밀도·갱신 정확성에 대한 개별 영향을 정량화한다.

§ 02

정의와 범위Preliminaries

인지 분류학·에이전트 아키텍처·그래프 조직 등 여러 관점에서 메모리가 연구되어 왔으나, 기저 개념은 여전히 LLM이나 에이전트 파이프라인의 알고리즘 구성 요소로 다뤄지는 경우가 많다. 본 연구는 에이전트 메모리를 독립적 데이터 관리 객체이자 시스템 인프라로 연구하며, 실제 에이전트 워크로드 하에서 어떻게 표현·저장·검색·갱신·유지되는지에 명시적으로 주목한다.

메모리 유형

메모리는 두 축으로 조직된다. 시간 축에서 단기 메모리는 진행 중인 세션의 휘발성 상태를, 장기 메모리는 세션을 가로질러 영속하는 정보를 담는다. 기능 축에서 장기 메모리는 구체적 과거 사건(에피소드 메모리), 추상화된 사실 지식(의미 메모리), 재사용 가능한 행동 전략(절차 메모리), 사용자 선호로 세분된다.

M_sys = ⟨ R, S, Q, U ⟩

표현·저장 — 논리적 메모리 포맷(원시 토큰·연속 벡터 ~ 그래프·트리·복합)과 물리적 저장(휘발성 레지스터·단일/다중 엔진)을 정의하는 사상

추출 — 이질적 입력 스트림(다중 턴 대화·도구 로그)을 원시 연결·스키마 자유·스키마 제약 파이프라인으로 논리적 원시형으로 변환

검색·라우팅 — 질의 맥락에 따라 관련 메모리 부분집합을 동적으로 식별. 어텐션·의미 KNN·위상 순회·에이전틱·하이브리드 스펙트럼

유지 — 충돌 해소·버저닝, 용량 관리(하드/점수 기반 축출), LLM 기반 의미 통합으로 메모리 항목의 동적 생애주기를 관장

RAG · 컨텍스트 엔지니어링과의 구분

RAG는 무상태·읽기 전용 검색 원시형으로, 질의가 주어지면 정적 코퍼스에서 관련 단락을 가져와 단일 생성 단계를 증강한다. 컨텍스트 엔지니어링은 매 추론 턴마다 유한한 LLM 컨텍스트 윈도를 큐레이션하는 더 넓은 실천이다. 반면 에이전트 메모리 시스템은 ① 에이전트 고유 상태를 시간에 걸쳐 관리하는 영속적·갱신 가능 인프라이며, ② 현재 컨텍스트 윈도를 채우는 데 그치지 않고 표현·저장·검색·유지를 포함한 장기 메모리 생애주기 전체를 관장한다.

전통 데이터베이스 워크로드와의 구분

에이전트 메모리 워크로드는 OLTP·OLAP와 본질적으로 다르다. 첫째, 메모리 접근은 술어 기반보다 의미 기반인 경우가 많아 근사 매칭·질의 재작성·LLM 유도 검색에 의존한다. 둘째, 메모리 내용은 연속적이며 잠재적으로 모순되는 관찰 하에 진화하므로, 불확실·부분적·모순적 정보를 수용해야 한다. 셋째, 워크로드는 접근 패턴과 입도 양면에서 고도로 이질적이다. 단일 워크로드가 장문 합성·에피소드 회상·구조적 사실 조회·시간 추론·스트리밍 갱신을 결합할 수 있어, 실용 시스템은 한 아키텍처 안에서 의미 검색·구조적 필터링·위상 인식 순회를 결합하는 하이브리드 실행 전략을 요구한다.

§ 03

방법 개요 — 통합 분류 체계Method Overview · Unified Taxonomy

그림 1. 에이전트 메모리의 전형적 실행 워크플로. 입력 스트림은 추출(S)을 거쳐 표현·저장(R)으로 영속화되고, 검색·라우팅(Q)이 관련 메모리를 에이전트 추론 루프로 되돌린다. 유지(U)는 통합·망각·축출로 생애주기를 관장한다.

**표 1.** 에이전트 메모리 시스템의 분류 체계와 특성. R·S·Q·U 네 모듈 기준 요약.
방법	표현·저장 (R)	추출 (S)	검색·라우팅 (Q)	유지 (U)
순차 컨텍스트 (Sequential Context)
MemoChat	토큰 시퀀스(구조화 JSON) · 휘발성 레지스터	스키마 제약(토픽 분할)	자율 에이전틱(토픽 선택)	의미 통합(턴 트리거)
Mem0	토큰 시퀀스(이산 사실) · 단일 엔진(벡터 DB)	스키마 자유	의미 기반 검색	의미 통합(툴 호출)
MEM1	토큰 시퀀스 · 휘발성 레지스터	원시 시퀀스 연결	네이티브 어텐션	용량 기반 물리 축출
MemAgent	토큰 시퀀스 · 휘발성 레지스터	원시 연결(재귀 요약)	네이티브 어텐션	용량 기반 축출(RL 덮어쓰기)
구조적 위상 (Structural Topological)
MemTree	그래프·트리(계층 트리) · 단일 엔진(벡터 DB)	스키마 자유(하향식 임베딩)	의미 기반(축약 트리)	의미 통합(재귀 집계)
Zep	그래프·트리(시간적 KG) · 단일 엔진(그래프 DB)	스키마 제약(트리플)	다단계 하이브리드(Dense+BM25+BFS)	타임스탬프 버저닝(논리 무효화)
Mem0ᵍ	그래프·트리(레이블 그래프) · 다중 엔진(벡터+그래프)	스키마 제약(엔티티-관계)	위상 부분그래프 순회	타임스탬프 버저닝
Cognee	그래프·트리(ER 트리플) · 다중 엔진(그래프+벡터+관계)	스키마 제약(ECL 파이프라인)	위상 부분그래프 순회	타임스탬프 버저닝(해시 중복 제거)
다중 패러다임 하이브리드 (Multi-Paradigm Hybrid)
LightMem	이질 복합(삼분 스키마) · 단일 엔진(관계 DB)	스키마 자유(엔트로피 게이트)	의미 기반 검색	타임스탬프 버저닝(추가 전용 로그)
SimpleMem	이질 복합 · 다중 엔진(벡터+BM25+SQL)	스키마 제약	자율 에이전틱(질의 확장)	의미 통합(즉석 합성)
MemOS	이질 복합(MemCube) · 다중 엔진(벡터+그래프)	스키마 제약(의미 파서)	다단계 하이브리드(불리언+의미)	타임스탬프 버저닝(차등 쓰기)
MemoryOS	이질 복합(세그먼트-페이지) · 다중 엔진(키워드+벡터)	스키마 제약	다단계 하이브리드(계층 라우팅)	용량 기반 축출(히트 기반)
A-MEM	이질 복합(원자 노트) · 다중 엔진(벡터+그래프)	스키마 제약(JSON 속성)	위상 부분그래프 순회	의미 통합(변이·가지치기)
Letta	이질 복합(컨텍스트 티어) · 단일 엔진(관계 DB)	스키마 제약	자율 에이전틱(함수 호출)	용량 기반 축출(큐 플러시)

3.1 · R메모리 표현과 저장

논리적 표현은 ❶ 토큰 수준 시퀀스(명시적 이산 텍스트 토큰 또는 암묵적 연속 벡터 토큰), ❷ 그래프·트리 위상(시간적 지식 그래프, 계층 트리), ❸ 이질 복합 표현(텍스트와 구조화 메타데이터를 단일 기능 단위로 결합, 예: MemOS의 MemCube)으로 나뉜다. 물리적 저장은 ❶ 휘발성 인컨텍스트 레지스터(디스크 I/O 제거), ❷ 단일 특화 엔진(벡터·그래프·관계 SQL·파일/객체), ❸ 이질 다중 엔진(벡터+그래프+BM25 등 분산)으로 구분된다.

벡터 토큰 표현은 토큰화 부담을 줄이고 검색·추론 파이프라인과 자연스럽게 통합되지만, 구조적 해석 가능성을 희생하며 술어 수준 필터링이나 부호화된 사실의 표적 갱신 같은 세밀한 연산이 어렵다.

3.2 · S메모리 추출

❶ 원시 시퀀스 연결 — 명시적 추출 프롬프트를 우회하고 메모리를 원시 토큰 연결이나 일시적 상태 요약으로 구성한다(MEM1, MemAgent). ❷ 스키마 자유 의미 추출 — 원시 입력을 독립적 고가치 정보 단위로 증류한다 (Mem0: "사용자는 채식이며 유제품을 먹지 않음"). ❸ 스키마 제약 구조 추출 — LLM이 사전 정의된 구조 스키마를 채워 엄격한 타입 데이터(그래프 삽입용 ER 트리플 또는 하이브리드 저장용 관계 페이로드)를 생성한다(Zep, Mem0ᵍ).

3.3 · Q메모리 검색과 질의 라우팅

❶ 네이티브 어텐션 검색 — 외부 DB I/O를 우회하고 트랜스포머 자기 어텐션을 검색 엔진으로 사용한다(MEM1, MemAgent). ❷ 의미 기반 밀집 검색 — 연속 잠재 공간에서 KNN을 실행한다(Mem0, LightMem, MemTree). ❸ 위상 부분그래프 순회 — 명시적 관계 엣지를 순회해 구조적으로 근거된 의미 클러스터를 추출한다(Mem0ᵍ, A-MEM). ❹ 자율 에이전틱 라우팅 — 검색을 LLM에 위임한다. 함수 호출 호출(Letta) 또는 생성적 질의 확장(SimpleMem). ❺ 다단계 하이브리드 실행 — 순차 하이브리드 라우팅(결정적 술어 필터 후 의미 추출, MemoryOS) 또는 병렬 앙상블 검색(BM25+밀집+위상 BFS 동시 발사 후 융합·리랭크, Zep).

3.4 · U메모리 유지

❶ 타임스탬프 다중 버저닝 — 물리 삭제 대신 타임스탬프와 추가 전용 로그로 만료 사실을 논리적으로 폐기한다(Zep, Mem0ᵍ, MemOS). ❷ 용량 기반 물리 축출 — 제약 기반 하드 축출(FIFO·토큰 한계, MEM1·MemAgent·Letta)과 점수 기반 우선순위 축출 (시간 감쇠·접근 빈도 히트 점수, MemoryOS). ❸ LLM 기반 의미 통합 — 인라인 의미 압축(쓰기 시점 병합, SimpleMem·MemTree)과 툴 기반 CRUD 실행(Mem0). ❹ 연속 매개변수 최적화 — 오프라인 학습 단계에서 모델 매개변수 자체를 수정한다(MemoRAG, RLGF).

§ 04

종단 평가End-to-End Assessment · RQ1–RQ5

12 시스템

+ 2개 기준선(Long Context · Embedding RAG)

11 데이터셋

5개 벤치마크 워크로드에 걸쳐 평가

48.0

Zep의 LongMemEval LLM Judge 최고 정확도

61.6%

Letta의 DB-Bench EM·과제 성공률 최고치

RQ1전반적 효과성 — 단일 지배 아키텍처는 없다

LoCoMo(장문 대화 QA), LongMemEval(다중 세션 장기 메모리), DB-Bench(절차적 실행) 세 워크로드에서 평가한다. 선도 시스템이 워크로드마다 바뀐다 — 구조 인식 시스템은 LongMemEval을 주도하고(Zep 48.0 LLM Judge, Cognee 35.3 ROUGE-L F1), 하이브리드 필터링은 LoCoMo 정확 매칭에서 가장 강하며(MemOS 11.5 EM), 추적 보존 메모리는 DB-Bench에서 강하다 (Long Context 48.2 EM, MemoChat 55.4 과제 성공률). 전체 워크로드를 포괄하는 방법 중에서는 MemoryOS와 MemOS가 프런티어에 가장 가깝다.

기준선 순차 컨텍스트 구조적 위상 다중 패러다임 하이브리드

LongMemEval · LLM Judge 정확도↑ 높을수록 좋음 (%)

Long Context

19.0

Embedding RAG

16.0

MemAgent

3.7

MemoChat

14.7

Zep Local

48.0

Cognee

40.7

MemTree

33.3

MemOS

33.0

MemoryOS

39.3

A-MEM

34.7

DB-Bench · 과제 성공률↑ 높을수록 좋음 (%)

Long Context

48.2

Embedding RAG

45.4

Mem0

22.9

MemoChat

55.4

Cognee

41.6

Zep Local

27.6

Letta

61.6

MemOS

42.0

MemoryOS

44.0

A-MEM

43.8

◆ Finding 1 · 워크로드 정렬 메모리

강한 에이전트 메모리는 단일 보편 표현이 아니라 지배적 워크로드 병목을 얼마나 잘 지원하는지로 정의된다.

분산된 교차 세션 추론에는 관계·시간 인식 검색이 가장 효과적이다 (Zep, Cognee).
길지만 의미적으로 일관된 대화에는 조대-세밀 필터링이 정확 근거를 개선한다 (MemOS, MemoryOS).
상태 기반 실행에는 정확한 어휘 매칭보다 상호작용 추적 보존이 더 중요하다 (Long Context).

RQ2검색 충실도 — 조기 적중보다 증거 완성

LoCoMo의 원천 수준 골드 증거로 증거 수준 검색 충실도를 평가한다. SimpleMem이 Recall@1 최고(39.0)지만, A-MEM과 MemTree는 더 큰 검색 예산에서 명확히 강해져 Recall@5/@10에서 각각 69.5/85.9, 59.7/80.5에 도달하며 증거 거리 간격이 커져도 훨씬 안정적이다. 반면 평탄한 Embedding RAG 기준선은 최단 간격 구간 이후 급락한다. 강한 메모리 검색은 top-1 순위 문제가 아니라, 필요한 근거가 오래되고 흩어지고 여러 턴에 퍼져 있을 수 있는 증거 완성 문제다.

◆ Finding 2 · 증거 중심 메모리 조직

검색 품질은 관련 메모리 하나를 먼저 순위 매기는 능력보다, 이후 재구성을 위해 증거를 어떻게 조직하는지에 더 의존한다.

조기 국소화와 증거 조립은 별개 설계 목표로 다뤄야 한다.
링크·계층 같은 명시적 구조는 증거가 흩어지거나 시간적으로 멀 때 가장 가치 있다 (A-MEM, MemTree).
평탄한 유사도 검색은 주로 근거리 접근에 효과적이다.

RQ3메모리 진화 견고성 — 시간 상태 외부화

**표 2.** 메모리 갱신 설정 하의 견고성. LoCoMo Temporal과 LongMemEval의 Knowledge Update·Temporal Reasoning 슬라이스. 열별 최고치 강조.
방법	LoCoMo · Temporal		Knowledge Update		Temporal Reasoning
방법	EM	Ans.F1	Sub.EM	R-L F1	Sub.EM	R-L F1
Long Context	8.1	26.9	20.0	18.0	12.0	24.0
Embedding RAG	1.6	7.9	20.0	17.8	10.7	22.7
Mem0	3.2	6.0	15.6	17.1	10.7	22.4
MemoChat	2.4	15.4	8.9	12.9	10.7	25.3
Cognee	4.0	28.1	37.8	34.0	18.7	35.8
Zep	4.8	18.1	44.4	36.8	13.3	30.5
MemTree	5.6	18.6	31.1	30.6	8.0	29.9
Letta	0.0	7.1	17.8	5.7	12.0	8.8
LightMem	4.0	20.1	15.6	20.2	12.0	28.6
SimpleMem	4.4	8.1	6.7	7.4	8.0	22.6
MemOS	8.9	28.0	28.9	30.5	12.0	31.1
MemoryOS	3.2	22.7	35.6	32.2	16.0	31.6
A-MEM	4.8	17.7	26.7	22.8	8.0	22.5

선도 시스템이 슬라이스마다 바뀐다 — 직접 사실 수정에는 그래프·관계 조직 메모리가 가장 강하고(Zep, Knowledge Update 44.4 Sub.EM), 시간적으로 분산된 증거에는 관계 조직 검색이 강하며(Cognee, Temporal Reasoning 18.7), 정확한 최신 상태 근거에는 하이브리드 필터 메모리가 강하다(MemOS, LoCoMo EM 8.9). 또한 백본 변형은 어떤 메모리 파이프라인이 효과적인지보다 절대 답변 품질을 더 바꾼다 — 안정적 갱신 거동은 주로 최종 생성 이전에 결정된다.

◆ Finding 3 · 시간적 갱신 충실도

신뢰할 만한 갱신 후 거동은 순수 모델 용량 문제가 아니라 파이프라인 수준 설계 문제다.

가변성을 메모리 표현에 내장해, 이후 사실을 같은 엔티티·사건에 결속하도록 한다 (Zep, Cognee).
질의 시점 선택성을 워크로드 병목에 맞춰, 최신 유효 상태가 필요하면 필터·하이브리드 라우팅을 쓴다 (MemOS, MemoryOS).
LLM 스케일링은 근거화 성공 이후에 가장 가치 있으므로, 강한 백본은 답변 표현을 정제할 뿐 진부·모순 메모리 해소의 주 기제가 아니다.

RQ4장기 안정성 — 지평선이 길어질 때의 증거 보존

LongBench(컨텍스트 길이 견고성), LongMemEval(다중 세션 증가), LoCoMo(시간 거리 드리프트)에서 평가한다. LongBench에서 SimpleMem은 Short→Medium 구간에서 거의 변화 없으나(35.2→34.9) Long Context는 42.6→19.0으로 급락한다. LoCoMo에서는 대비가 더 날카롭다 — Embedding RAG가 증거 간격 확대에 따라 37.1→7.4로 떨어지는 반면, Cognee·MemOS·MemoryOS 같은 그래프·통합 메모리는 같은 구간에서 훨씬 높게 유지된다. 긴 지평선의 주된 어려움은 메모리 용량이 아니라, 표현이 먼 사실을 답변에 필요한 추상화와 연결된 상태로 유지하는지 여부다.

◆ Finding 4 · 지평선 구조화 메모리

유효 메모리 지평선이 커질수록 과제는 더 많은 이력을 저장하는 것에서 그 위에 올바른 추상화를 선택하는 것으로 이동한다.

긴 입력에 방해 요소가 많을 때는 다중 뷰 필터링이 돕는다 (SimpleMem).
지지 사실이 여러 턴·세션으로 분리될 때는 관계 인식 색인이 돕는다 (Cognee, Zep).
관련 세션을 먼저 식별한 뒤 국소 세부를 해소해야 할 때는 조대-세밀 요약이 돕는다 (MemOS, MemoryOS).

RQ5운영 비용 — 국소 유지가 전역 재조직을 이긴다

통일된 시간 오버헤드 추적으로 8개 시스템의 효용–지연 트레이드오프와 교차 워크로드 지연 발자국을 평가한다. LightMem과 MemTree가 가장 강한 효율 프런티어를 차지한다 — LightMem은 3.67초에 정규화 효용 48.3, MemTree는 15.9초에 63.5를 달성한다. 반면 고효용 구조 시스템은 비용 측면으로 크게 이동해, MemoryOS는 28.6초에야 효용 82.0에 도달하고 Cognee·Zep는 116.5초·155.1초 이후에야 효용 84를 넘는다. 운영 효율은 구조 사용 여부보다 각 쓰기가 그 구조를 통해 얼마나 널리 전파되는지에 좌우된다.

LongBench · 질의당 평균 총 지연 (이상치 필터링)↓ 낮을수록 좋음 (초)

LightMem

17.3

MemTree

117

Mem0

374

MemoChat

460

MemoryOS

490

A-MEM

552

◆ Finding 5 · 운영 스케일링 규칙

효율은 구조 자체가 아니라 유지 범위에 좌우된다.

국소적 갱신·검색이 가장 강한 비용–효용 균형을 낳는다 (LightMem, MemTree).
풍부한 조직은 그 유지가 광범위 재계산을 피할 때만 도움이 되며, 그렇지 않으면 오버헤드가 이득을 상쇄한다 (Cognee, MemoryOS).
장문 워크로드에서는 전체 메모리 조율이 지배적 비용 요인이 된다.

§ 05

세밀한 모듈 비교Fine-Grained Component Comparison

종단 성능 차이의 근본 원인을 이해하기 위해, 한 번에 한 모듈만 수정한 통제된 변형을 체계적으로 생성해 각 모듈이 전체 성능에 기여하는 바를 평가한다.

M1 · R표현·저장 — 내용 충실도가 추상화·계층보다 중요

**표 3.** 표현·저장 기제 제거. LoCoMo(합성 추론)와 LongMemEval(다중 세션 사실 검색). 최고치 강조.
방법	변형	EM	Ans.F1	Sub.EM	R-L F1
LightMem	User-Only Raw	24.2	38.9	26.0	31.4
	User-Only Summary	8.5	15.6	11.7	17.4
	User-Only Compressed	23.6	38.6	10.7	19.1
MemTree	Flat-biased	18.2	30.7	23.0	29.9
MemTree	Deeper Tree	18.7	31.2	23.3	30.9
Mem0	Default	3.2	6.2	9.3	16.5
Mem0	Graph Store	3.0	6.5	8.3	15.9

◆ Finding 6 · 표현 입도

메모리를 더 압축·구조화하는 것보다 사용 가능한 증거를 보존하는 것이 중요하다.

고보존 형태가 정확한 세부 복구를 가장 잘 지원한다 (LightMem User-Only Raw).
가벼운 압축은 추론을 보존하지만 정확 매칭을 약화한다 (User-Only Compressed).
계층은 주로 접근을 개선하나 제거된 내용을 복원하지는 못한다 (MemTree Deeper Tree).

M2 · S추출 — 후기 필터링 원칙

**표 4.** 메모리 추출 전략 제거. 더 넓고 덜 선택적인 추출이 하류 답변 가능성을 더 잘 보존한다.
방법	변형	EM	Ans.F1	Sub.EM	R-L F1
MemoChat	Heuristic Topic	23.0	33.5	10.7	18.6
MemoChat	LLM Topic	22.5	34.4	7.3	15.9
MemOS	Fast Memorize	25.5	40.8	20.7	26.1
MemOS	Fine Memorize	2.5	5.0	22.3	30.2
LightMem	User-Only Raw	24.2	38.9	26.0	31.4
LightMem	Hybrid Raw	25.5	39.7	25.3	31.4

◆ Finding 7 · 후기 필터링 원칙

메모리 추출은 쓰기 시점에 세부를 공격적으로 거르기보다 맥락을 보존해야 한다.

조대한 분할은 관련 단서를 함께 두어 스레드 가로지르는 질문을 돕는다.
제한된 재작성은 나중에 결합될 때만 의미 있는 세부를 유지해 합성 추론을 지원한다.
사용자·어시스턴트 턴을 모두 저장하면 명확화 단서(날짜·정제된 표현)를 보존해 명확화 중심 대화를 돕는다.

M3 · Q검색·라우팅 — 계획과 균형 융합

**표 5.** 검색·라우팅 기제 제거. 명시적 계획과 균형 융합이 검색 효과를 가장 크게 개선한다.
방법	변형	Ans.F1	Recall	Sub.EM	R-L F1
A-MEM	Hybrid-Balanced	24.6	49.9	27.5	25.9
A-MEM	Hybrid Sparse-Leaning	23.0	44.3	24.3	22.8
SimpleMem	No Planning	18.7	86.4	17.0	22.9
	Planning Only	20.7	90.6	21.7	27.9
	Planning + Reflect	20.0	88.6	21.3	26.1

◆ Finding 8 · 검색 전략 지침

검색 품질은 복잡성 추가가 아니라 표적화된 구조에서 가장 많이 개선된다.

증거가 의미적으로 관련되나 어휘적으로 다양할 때는 중간 정도 하이브리드 융합이 낫다.
제약된 메모리 조회에는 경량 계획이 효과적이다.
경로가 이미 지정되면 추가 반영은 이득이 제한적이고 주로 오버헤드만 더한다.

M4 · U유지 — 보수적 통합이 최선의 기본값

MemoryOS의 Conservative-Merge(엄격 병합) 변형은 기본 대비 LoCoMo Ans.F1을 23.2→23.5, Sub.EM을 22.4→22.8로 개선하는 반면, 플러시를 지연(Delayed-Flush)하면 20.6/19.5로 떨어지고 MemoChat에서 단일 토픽 요약을 강제하면 16.2/16.8로 기본 설정(16.6/18.4)보다 부진하다. 유지는 증거를 미해결로 남기거나 지나치게 공격적으로 압축하지 않고 선택적으로 통합할 때 가장 효과적이다.

◆ Finding 9 · 유지 설계 원칙

메모리 유지는 균형 잡힌 갱신 체제에서 가장 잘 작동한다.

보수적 통합은 장기 추론을 위한 턴 간 연결을 보존한다.
지연된 플러시는 질의 시점에 최근 증거를 파편화된 채로 남긴다.
지나치게 조대한 요약은 희소하지만 유용한 단서를 가린다.

§ 06

결론Conclusion

데이터 관리 관점에서 기존 에이전트 메모리 시스템을 포괄적으로 검토했다. 전형적 시스템의 종단 성능을 철저히 평가하고 적합한 응용 시나리오를 탐구했으며, 여러 메모리 모듈 변형을 구성해 개별 빌딩 블록의 영향을 파고들었다. 이를 통해 표현·추출· 라우팅·유지에 가장 효과적인 방법과, 운영 비용·장기 안정성을 좌우하는 가장 영향력 있는 요인을 식별했다. 마지막으로 적합한 메모리 아키텍처 선택을 위한 사용자 지침을 제시하고 유망한 연구 방향을 제안하며, 테스트베드와 평가 프레임워크를 공개한다.

핵심 종합

모든 시나리오를 지배하는 단일 아키텍처는 없다. 견고성은 단일 보편 메모리 형태가 아니라 올바른 추상화 수준에서 올바른 증거를 최종 매칭 이전에 보존하는 데서 온다. 효율은 구조 사용 여부가 아니라 유지 범위가 결정하며, 국소 유지가 전역 재조직보다 비용 효율적이다.

§ REFERENCES

참고문헌References · 발췌

[3] Bai et al. LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding. ACL 2024.

[5] Chhikara et al. Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory. arXiv:2504.19413, 2025.

[6] Du. Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers. arXiv:2603.07670, 2026.

[7] Fang et al. LightMem: Lightweight and Efficient Memory-Augmented Generation. arXiv:2510.18866, 2025.

[8] Gao et al. Retrieval-Augmented Generation for LLMs: A Survey. arXiv:2312.10997, 2023.

[12] Kang et al. Memory OS of AI Agent. EMNLP 2025.

[13] Khan et al. RAG: What is There for Data Management Researchers? SIGMOD Record 54(4), 2025.

[14] Li, Zhou & Zhao. LLM for Data Management. PVLDB 17(12), 2024.

[15] Li et al. MemOS: A Memory OS for AI System. arXiv:2507.03724, 2025.

[16] Liu et al. SimpleMem: Efficient Lifelong Memory for LLM Agents. arXiv:2601.02553, 2026.

[17] Liu et al. Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First. CIDR 2026.

[18] Lu et al. MemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Conversation. arXiv:2308.08239, 2023.

[20] Maharana et al. Evaluating Very Long-Term Conversational Memory of LLM Agents (LoCoMo). ACL 2024.

[21] Markovic et al. Optimizing the Interface Between Knowledge Graphs and LLMs (Cognee). arXiv:2505.24478, 2025.

[22] MemoryAgentBench Team. Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions. ICLR 2026.

[25] Packer et al. MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560, 2023.

[26] Rasmussen et al. Zep: A Temporal Knowledge Graph Architecture for Agent Memory. arXiv:2501.13956, 2025.

[27] Rezazadeh et al. Dynamic Tree Memory Representation for LLMs (MemTree). ICLR 2025.

[31] Wu et al. LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory. arXiv:2410.10813, 2024.

[32] Wu et al. Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework. PVLDB 2026.

[33] Xu et al. A-MEM: Agentic Memory for LLM Agents. arXiv:2502.12110, 2025.

[35] Yu et al. MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent. arXiv:2507.02259, 2025.

[37] Zheng et al. LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners. arXiv:2505.11942, 2025.

[39] Zhong et al. MemoryBank: Enhancing LLMs with Long-Term Memory. AAAI 2024.

[41] Zhou et al. MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents. arXiv:2506.15841, 2025.

에이전트 네이티브
메모리 시스템은
준비되었는가?

표현 · 저장

추출

검색 · 라우팅

유지

서론Introduction

아키텍처기존 메모리 시스템의 네 가지 설계 계열

스트림·반영형 (예: MemoryBank)

계층 티어형 (예: MemGPT)

지식 그래프형 (예: Mem0ᵍ, Zep)

복합 하이브리드형 (예: A-MEM)

본 연구의 기여

정의와 범위Preliminaries

메모리 유형

RAG · 컨텍스트 엔지니어링과의 구분

전통 데이터베이스 워크로드와의 구분

방법 개요 — 통합 분류 체계Method Overview · Unified Taxonomy

3.1 · R메모리 표현과 저장

3.2 · S메모리 추출

3.3 · Q메모리 검색과 질의 라우팅

3.4 · U메모리 유지

종단 평가End-to-End Assessment · RQ1–RQ5

RQ1전반적 효과성 — 단일 지배 아키텍처는 없다

RQ2검색 충실도 — 조기 적중보다 증거 완성

RQ3메모리 진화 견고성 — 시간 상태 외부화

RQ4장기 안정성 — 지평선이 길어질 때의 증거 보존

RQ5운영 비용 — 국소 유지가 전역 재조직을 이긴다

세밀한 모듈 비교Fine-Grained Component Comparison

M1 · R표현·저장 — 내용 충실도가 추상화·계층보다 중요

M2 · S추출 — 후기 필터링 원칙

M3 · Q검색·라우팅 — 계획과 균형 융합

M4 · U유지 — 보수적 통합이 최선의 기본값

결론Conclusion

참고문헌References · 발췌