출처 인지 에이전트

시스템은 세 기둥 위에 세워진다 — (i) 어세이 컨텍스트를 7개의 타입 필드로 정규화, (ii) 모든 증거 엣지에 출처 태그 부착, (iii) 예측값과 검사 가능한 감사 신호를 함께 출력하는 결정론적 계획자–비평가–검증자 루프.

학습-테스트 간 출처가 분리된 합성 벤치마크와 실제 분자 개념 충돌 스트레스 테스트에서, AssayKG-RAG는 완벽한 방향 정확도 계수(DCC = 1.000), 오류 탐지 AUROC_err = 0.777, 그리고 제로 누출률(LeakageRate = 0.000)을 달성한다. 핵심 기여는 리더보드 갱신이 아니라, 명시적으로 분리된 계획–비판–검증 루프를 출처 게이트 감사 가능성과 함께 재현 가능하고 실행 가능한 계약으로 형식화한 데 있다.

§ I

서론Introduction

신약 개발 과정에서 컴퓨터 기반 예측 모델은 화합물의 흡수·분포·대사·배설·독성(ADMET) 특성을 사전 선별하는 핵심 도구로 자리 잡았다. 최근에는 도메인 특화 대규모 언어 모델(LLM)을 이러한 예측 작업에 적극 도입하려는 시도가 급속히 늘고 있다 [1,2]. 그러나 모델의 규모와 사전학습 데이터를 확장하는 것만으로는 해결되지 않는 근본적 문제가 존재한다. 동일한 화합물이라도 실험 조건이 달라지면 정답 라벨의 의미 자체가 바뀐다.

Parrondo-Pizarro 등 [3]은 공개 ADME 데이터셋 사이의 주석 불일치와 분포 불균형을 실증적으로 보고하며, 이러한 어세이 수준의 데이터 이질성이 모델의 예측 정확도를 결정적으로 훼손할 수 있음을 보였다. 구체적으로 어세이 종류, 실험실 간 용어 차이, 양성 판정 임계값, 메타데이터 누락 등의 변화는 동일한 예측 점수의 해석을 근본적으로 변화시킨다. 이 조건들은 단순한 부가 정보가 아니라 예측값이 무엇을 의미하는지를 정의하는 라벨 의미론의 일부다 [4].

기존 두 접근법의 한계

분자 구조 기반 모델 [5,6]은 분자-특성 관계 학습에서는 뛰어나지만, 어세이 조건 변화에 따른 예측의 동적 조정이 불가능하다. 검색 증강 생성(RAG) 방식 [7]은 과거 실험 기록을 활용할 수 있다는 장점이 있으나, 검색된 증거가 현재의 어세이 의미론과 실제로 부합하는지 검증하지 않으며, 학습-테스트 간 정보 누출을 방지하는 구조적 장치도 부재하다 [8].

핵심 관점 전환

본 논문은 이 문제를 에이전틱 AI의 관점으로 접근한다. 치료용 예측 시스템은 단순한 입출력 변환기가 아니라, (i) 어느 증거를 허용할지 계획하고, (ii) 검색 증거의 질의 부합도를 비판적으로 평가하며, (iii) 조건 변화에 대한 예측의 방향 타당성을 검증하는 에이전트여야 한다. 중요한 것은 "더 큰 예측기"가 아니라 "감사 가능한 의사결정 절차"의 설계다. 약물 개발 현장에서 의사결정자는 예측값뿐 아니라 그 근거와 신뢰 조건을 함께 요구하기 때문이다.

연구 질문

RQ1

검색 안전성

학습-테스트 간 정보 누출 없이 의미론적으로 허용 가능한 증거만 검색할 수 있는가?

RQ2

방향 정확성

어세이 조건 변화(예: 임계값 강화)에 대해 예측 확률이 생물학적으로 올바른 방향으로 조정되는가?

RQ3

실패 진단 가능성

에이전트가 출력하는 정합성 감사 신호는 예측 실패를 사전 탐지할 수 있는가?

주요 기여

01
에이전틱 AI의 계획-비판-검증 원칙을 치료용 어세이 검색에 적용해, 검색·추론·감사를 하나의 결정론적 실행 계약 문제로 정의한다.
02
출처 인지, 결측 메타데이터의 명시적 처리(UNK), 임계값 제약, 분할 안전성을 단일 파이프라인으로 통합한 타입 지식 그래프 구조를 제안한다.
03
합성 벤치마크에서 DCC = 1.000, 오류 탐지 AUROC_err = 0.777을 달성하여, 평균 AUROC가 가려 온 방향 정확도와 실패 진단 가능성을 별도의 평가 축으로 제시한다.

§ II

AssayKG-RAG 에이전틱 아키텍처Agentic Architecture

3.1문제 정의 — 컨텍스트 취약성

어세이 조건에 따라 동일 분자의 라벨이 달라지는 이유는 간결한 예로 분명해진다. 화합물 X의 분자 구조는 변하지 않으나, 완화된 컨텍스트 c₁(임계값 > 0.50)에서는 활성 점수 0.65가 임계값을 초과하여 양성으로, 엄격한 컨텍스트 c₂(임계값 > 0.70)에서는 동일한 0.65가 임계값에 미치지 못하여 음성으로 판정된다.

그림 1. 컨텍스트 조건부 예측의 예시. 동일한 분자 X(점수 0.65)도 완화된 임계값(> 0.50)에서는 양성, 엄격한 임계값(> 0.70)에서는 음성으로 판정된다. 컨텍스트를 무시하는 예측기는 두 시나리오 중 하나에서 반드시 오답을 낸다.

정의 · 컨텍스트 조건부 예측 f : M × C → [0,1] 예측 f(m,c)의 방향이 c 변화가 지시하는 생물학적 방향과 일치

어세이 컨텍스트의 7개 타입 필드

어세이 컨텍스트 c는 다음 7개의 정규 필드로 구성된 순서 있는 레코드다. 앞의 여섯 필드는 스칼라 문자열이고, protocol_tokens는 정규화된 다중 집합 T(c)로 처리된다. 모든 필드는 명시적 UNK를 포함한 유한 어휘에서 값을 취하며, 임계값 규칙은 positive_if_score_gt_0.55와 같은 정규화 문자열로 저장되어 전 영역에서 일관된 의미론적 해석을 보장한다.

task

예측 과제

hERG

endpoint

종말점

IC50

assay_family

어세이 계열

cardiotoxicity

source

출처 실험실

lab_alpha

threshold_rule

임계값 규칙

IC50_lt_1uM

unit

단위

protocol_tokens

프로토콜 토큰 집합

{patch_clamp, HEK293}

UNK

명시적 결측 처리

감사 로그 기록

출처-태그 타입 지식 그래프

타입 지식 그래프 G = (V, E, τ)의 노드는 molecule, scaffold, task, endpoint, assay_family, source, threshold_rule, protocol_token 중 하나의 타입을 갖는다. 각 엣지 e ∈ E는 어세이 카드 ID 또는 분할 풀 ID에 해당하는 출처 태그 τ(e)를 갖는다. 주어진 분자 m, 컨텍스트 c, 그래프 G로부터 검색되는 증거 번들은 다음과 같이 정의된다.

𝓔(m, c; G) = { (e_j, s_j, ε_j) }_j=1^k 식 (1)

ŷ ∼ p_θ( y | m, c, 𝓔(m, c; G) ) 식 (2)

e_j는 정규 증거 레코드, s_j ∈ [0,1]은 검색 점수, ε_j는 출처 태그다. 현재 아키텍처에서 p_θ는 학습된 신경망이 아닌 결정론적 대리 예측기로 구현되며, 이는 검색 계약과 감사 신호가 예측기 종류와 독립적으로 검증될 수 있음을 확인하기 위한 설계다.

PlanCriticizeVerify3.2 에이전트 제어 루프

그림 2. AssayKG-RAG 아키텍처. 계획자가 질의를 정규화하고 출처 기반 검색 제약을 고정한 뒤, 타입 지식 그래프가 분할-안전 증거 번들을 구성한다. 예측자·비평가·검증자는 각각 예측, 정합성 점수, 유효성 플래그를 산출하고 최종적으로 감사 가능한 구조화 JSON을 출력한다.

계획자(Planner)는 질의를 정규화하고 검색 가능한 출처를 제한한다. 비평가(Critic)는 검색된 증거와 질의의 스키마 간 정합성을 정량화한다. 검증자(Verifier)는 예측의 방향 타당성과 스키마 유효성을 반사실 교란 아래에서 확인한다. 이 분리는 고위험 치료용 추론에서 어떤 판단이 어느 단계에서 발생했는지를 추적하기 위한 설계이며, 임의의 자율성을 늘리기 위한 것이 아니다.

알고리즘 1 · AssayKG-RAG 에이전트의 결정론적 실행 계약

Plannerc ← Canonicalize(c_raw)
Planner𝓔 ← Retrieve(m, c, G, Π)
ŷ ← Predict(m, c, 𝓔)
Criticu ← Critic(c, 𝓔)
Verifierv ← ValidityChecks(c, 𝓔, ŷ)
emit JSON(ŷ, u, v, 𝓔)

알고리즘 1은 동일 입력에 대해 항상 동일한 감사 산출물을 생성하도록 고정된다. 각 단계는 결정론적이며 — 정규화는 O(1), 검색은 증거 개수 k에 대해 O(k), 예측과 비평은 각각 O(k), 검증은 O(1)이다. 전체 복잡도는 O(k)이며, k가 통상 수 수십 건으로 제한되므로 서브 밀리초(sub-millisecond) 수준에서 수행된다. 이러한 경량성은 계획-비판-검증 루프를 실시간 감사 계층으로 통합할 수 있음을 시사한다.

3.3UNK 인식 정규화 및 분할 안전성

결측 메타데이터는 삭제하지 않고 명시적 토큰 UNK로 유지한다. 질의 q에 대해 필드 존재 지시자를 δ_f(q) = 𝟙[q_f ≠ UNK], 이용 가능 필드 수를 Ω(q) = Σ_f δ_f(q)로 정의한다. 정합성 합산 시 δ_f(q)=0인 필드는 분모에서 제외되며, 이를 통해 결측값을 자동 불일치로 취급하는 과잉 벌칙을 방지하면서 어떤 정보가 부족하여 판단이 약화되었는지를 감사 로그에 기록한다.

분할-인식 출처 보호는 테스트 풀 P_test를 사전 정의하고, 검색된 모든 증거의 출처 태그 ε_j가 해당 풀에 속하지 않을 때만 증거를 허용한다.

LeakageRate = (1/N_test) · Σ_i=1^N_test 𝟙[ ∃j : ε_ij ∈ P_test ] 식 (3)

수행된 합성 그래프에서 LeakageRate = 0.000은 계획자의 출처 필터가 의도한 대로 작동하여 학습-테스트 누출이 일어나지 않았음을 확인한다.

3.3비평가 정합성 점수

비평가의 핵심 산출물인 정합성 점수 CC(q, 𝓔)는 증거가 질의 스키마와 일치하는 정도와 검색 점수의 질의 정렬 정도를 가중 결합한다.

CC(q, 𝓔) = α · SchemaMatch(q, 𝓔) + (1−α) · RetrievalAlign(𝓔) 식 (4)

protocol_tokens의 경우 부분 문자열 휴리스틱 대신 정규 다중 집합 겹침(자카드 유사도)으로 비교한다. 가중치 α = 0.6은 사전 등록된 기본 시드에서 내적 검증으로 선택되었으며, 5개 시드 민감도 분석에서 큰 영향을 받지 않았다. 중요한 점은 정합성 점수가 보정된 확률이 아닌 감사 신호(audit signal) — 예측 근거와 신뢰도를 외부에서 검토할 수 있게 하는 진단적 지표 — 라는 사실이다.

3.3검증자 신호 및 방향 정확도

검증자는 유효성 게이트 V_⊕(c, c′) ∈ {0,1}을 통해 반사실 평가가 의미 있는 조건 변화에 대해서만 수행되도록 한다. 의미 있는 스왑, 잡음 보존 의역, 임계값 시프트는 각각 다른 유효성 술어로 판정되며, 임계값 시프트는 |Δτ| ≤ κ = 0.1인 제한적 교란만 허용함으로써 CSS 인플레이션을 방지한다.

DCC = (1/2N) · Σ_i=1^N [ 𝟙[p′_i − p_i ≥ τ] + 𝟙[p_i − p′_i ≥ τ] ] 식 (6)

방향 정확도 계수 DCC는 유효한 임계값 변화 N쌍 (c_i, c′_i)에서 예측 확률이 기대 방향으로 이동하였는지를 측정한다. τ = 0.01은 수치적으로 미미한 변화를 무시하기 위한 허용도다. 임계값 규칙을 변경한 각 쌍에서 원래 예측 확률 p_i와 변경 후 확률 p′_i의 차이가 τ를 초과할 때 "방향 이동이 발생하였다"고 판단하며, 방향 이동 쌍의 비율을 [0,1]로 집계한다.

명제 · 실행된 대리 예측기의 국소 임계값 단조성

분자 m과 모든 비임계값 필드가 고정되고, 증거 번들 𝓔가 유효한 임계값 교란 아래에서 불변할 때, 실행된 대리 예측기는 ∂p_θ/∂τ < 0을 만족한다. 즉, 더 엄격한 임계값 규칙은 예측 확률을 단조 감소시킨다. 이 명제는 DCC = 1.000이 우연한 포화가 아니라 설계된 검증 계약의 구조적 결과임을 보장한다.

§ IV

평가 설계 및 실험 결과Evaluation & Results

실험은 Apple M3 Max CPU, 128GB RAM, Python 3.12 / PyTorch 환경에서 합성 어세이 시프트 벤치마크와 실제 분자 개념 충돌 스트레스 테스트를 수행했다.

4.1합성 어세이 시프트 벤치마크

실험 조건 변화가 예측에 미치는 영향을 통제된 환경에서 측정하기 위해, 생물학적 변동성을 배제한 합성 데이터를 설계했다. 분자는 6개의 가상 프래그먼트로 구성되며, 태스크와 출처에 따라 서로 다른 점수가 부여되고 임계값 0.60을 기준으로 이진 라벨이 생성된다. 훈련 데이터는 출처 A/B, 테스트 데이터는 출처 C로 구분해 모델이 미지의 실험실 데이터에 대한 일반화 능력을 평가한다. 이 벤치마크의 목적은 신약 물성 예측의 최종 정확도가 아니라, 통제된 분포 이동 아래에서 세 진단 질문 — 검색 안전성, 방향 정확성, 실패 진단 가능성 — 에 답하는 것이다.

**표 1.** 합성 어세이 시프트 벤치마크 주요 결과.
모델	AUROC	ECE	DCC	Err. AUROC
Graph-only vote	0.993	0.099	1.000	–
Non-graph RAG	0.931	0.199	0.999	0.762
AssayKG-RAG	0.968	0.124	1.000	0.777

그래프 검색 기반 단순 투표 모델이 AUROC 0.993으로 가장 높은 판별 성능을 보이지만, 이 기준선은 컨텍스트 조건에 부합하는 레이블을 직접 집계하는 강력한 방식이기 때문이다. AssayKG-RAG는 AUROC 0.968로 이보다 낮으나, 동시에 완벽한 방향 정확도 DCC = 1.000과 오류 탐지 AUROC_err = 0.777을 제공한다. 이는 단순히 "예측을 잘하는" 시스템을 넘어 언제 예측이 실패하는지를 스스로 인지하는 시스템의 가능성을 실증한다.

4.2실제 분자 개념 충돌 스트레스 테스트

합성 데이터의 한계를 보완하기 위해, 공개 AMES 데이터셋을 이용한 소규모 실제 분자 파일럿을 실행했다. 개념 충돌 실험은 동일한 분자 집합에 대해 실험실 용어 별칭(alias)을 부여한 뒤 두 가지 검색 방식을 비교한다. 평면 어휘 투표는 어세이 조건을 평문 텍스트로 변환한 뒤 단어 빈도 또는 임베딩 유사도로 증거를 검색해 라벨을 투표 집계하는 기준 방식이다. 타입 그래프 투표는 어세이 조건을 7개 타입 필드로 정규화한 뒤 타입 지식 그래프에서 출처 제약을 만족하는 증거만 검색해 라벨을 집계하는 방식이다.

**표 2.** 실제 분자 개념 충돌 스트레스 테스트. CAS(컨텍스트 인식 점수)와 평균 Δp 비교.
검색기	Top-1 Admissible	CAS	Mean Δp
Flat lexical vote	0.875	0.500	−0.051
Typed graph vote	1.000	0.750	+0.044

표 2는 타입 그래프 검색이 평면 검색 대비 허용 가능한 top-1 검색률을 0.875 → 1.000으로, 출처 스왑 CAS를 0.500 → 0.750으로 향상시킴을 보인다. 어휘적으로 유사한 증거가 항상 의미론적으로 허용 가능하지는 않으며, 출처와 타입 제약을 갖춘 계획자가 개념 충돌을 효과적으로 저감할 수 있음을 시사한다.

4.2감사 신호의 진단적 가치 — UNK 민감도

AssayKG-RAG의 정합성 점수는 오답을 선별하는 데 유의미한 진단 신호를 제공한다. 어세이 컨텍스트 필드에 결측(UNK) 비율을 인위적으로 증가시키면 평균 정합성 점수와 오류 탐지 성능이 함께 하락한다. 이는 에이전트가 가용 정보가 부족할 때 스스로 확신을 낮추고 그 사실을 감사 신호로 보고할 수 있음을 보여 주는 중요한 특성이다.

**표 3.** UNK 비율 증가에 따른 민감도 (시드 7). 결측이 늘수록 정합성 점수와 진단 성능이 함께 저하된다.
UNK 비율	AUROC	Brier	평균 CC	Err. AUROC
0.0	0.968	0.087	0.818	0.777
0.4	0.969	0.083	0.728	0.626
0.8	0.873	0.153	0.575	0.705

다만 정합성 신호는 5개 시드 평균 0.557±0.132로 변동성이 커, 보정된 확률적 불확실성 추정치로 해석해서는 안 된다. 현재 단계에서 정합성은 확률적 신뢰도가 아닌 진단 감사 신호 — 에이전트가 "검색 근거가 질의와 얼마나 잘 맞는지"를 외부에 보고하기 위한 지표 — 다. 안정적인 불확실성 지표로 활용하려면 추가적인 보정 연구가 필요하다.

4.3한계 및 논의

한계 ①

합성 벤치마크의 범위

주 벤치마크는 합성 데이터 기반이어서 실제 생물학적 변동성과 실험실 배치 효과를 포함하지 않는다. 향후 연구는 공개 ADMET 자원(ChEMBL, TDC)에서의 검증으로 확장된다.

한계 ②

기준선과의 직접 비교 부재

예측기가 학습된 신경망이 아닌 결정론적 대리 예측기이므로, Chemprop·Graphormer·Uni-Mol 등 강력한 공개 기준선과의 직접 성능 비교는 수행하지 않았다. 본 논문은 예측 성능 우위가 아닌 감사 가능성과 방향 정확도라는 설계 원칙을 주장한다.

이 두 한계를 넘어서기 위한 향후 연구는 학습된 치료용 모델과의 결합으로 이어진다. 계획자-비판가-검증자의 역할 분리는 최종 예측이 틀렸을 때 실패 원인을 검색·정합성·예측기 중 어느 단계에서 기인하는지 체계적으로 진단할 수 있는 프레임워크를 제공한다는 점에서 독자적 가치를 갖는다.

§ V

결론Conclusion

본 논문은 어세이 컨텍스트를 예측 대상의 부가 정보가 아닌 라벨 의미론의 일부로 간주하고, 에이전트가 이를 계획-비판-검증의 명시적 절차로 다루는 AssayKG-RAG 프레임워크를 제안했다. 합성 어세이 시프트 벤치마크에서 DCC = 1.000, 오류 탐지 AUROC_err = 0.777, 누출률 LeakageRate = 0.000을 달성하고, 실제 분자 스트레스 테스트에서 타입 기반 검색이 개념 충돌을 효과적으로 저감함을 보임으로써, 평균 AUROC에 가려져 있던 맥락 의존적 실패 모드를 가시화했다.

핵심 주장

치료용 AI가 신뢰 가능한 의사결정 지원 도구로 성숙하려면 더 높은 평균 예측 성능만으로는 부족하다. 어떤 증거를 사용하였는지, 그 증거가 왜 허용 가능한지, 예측이 의미론적으로 타당한 방향으로 변화하였는지를 설명할 수 있는 에이전틱 감사 구조가 함께 갖추어져야 한다.

AssayKG-RAG는 이 방향으로 나아가는 작고 재현 가능한 첫 단계로서, 향후 ChEMBL·TDC 등 실제 대규모 데이터 검증과 학습된 치료용 기초 모델과의 결합을 통해 그 유효성을 확장할 것이다.

감사의 글 — 이 논문은 2026년도 정부(과학기술정보통신부)의 재원으로 국가과학기술연구회(NST)의 지원을 받아 수행된 연구다 (No. 26CB1200, 과학특화 멀티모달 파운데이션 모델 개발 및 적용).

§ REFERENCES

참고문헌References

[1] Wang, Schmidgall, Jaeger et al. TxGemma: Efficient and agentic LLMs for therapeutics. arXiv:2504.06196, 2025.

[2] Google Developers Blog. Introducing TxGemma: Open models to improve therapeutics development. 2025.

[3] Parrondo-Pizarro et al. Enhancing molecular property prediction through data integration and consistency assessment. J. Cheminformatics 17(1):163, 2025.

[4] Mirza et al. A framework for evaluating the chemical knowledge and reasoning abilities of LLMs (ChemBench). Nature Chemistry, 2025.

[5] McGill, Greenman et al. Chemprop: A machine learning package for chemical property prediction. JCIM, 2023.

[6] Zhou et al. Uni-Mol: A universal 3D molecular representation learning framework. ChemRxiv, 2023.

[7] Singh, Ehtesham, Kumar, Khoei. Agentic retrieval-augmented generation: A survey on agentic RAG. arXiv:2501.09136, 2025.

[8] Lee et al. RAG-Enhanced Collaborative LLM Agents for Drug Discovery. arXiv:2502.17506v3, 2025.

[9] Huang et al. Biomni: A general-purpose biomedical AI agent. bioRxiv, 2025.

[10] Ross et al. GP-MoLFormer: a foundation model for molecular generation. Digital Discovery 4:2684–2696, 2025.

[11] Delile et al. Foundation models in drug discovery. Drug Discovery Today 30(12):104518, 2025.

[12] Science Advances. Benchmarking retrieval-augmented LLMs in biomedical NLP. Science Advances 11(47), 2025.

[13] Rong et al. Self-supervised graph transformer on large-scale molecular data (GROVER). NeurIPS, 2020.

[14] Ying et al. Do transformers really perform bad for graph representation? (Graphormer). NeurIPS, 2021.

[15] Han et al. Retrieval-augmented generation with graphs (GraphRAG). arXiv:2501.00309, 2025.

[16] Chang et al. MAIN-RAG: Multi-agent filtering retrieval-augmented generation. ACL, 2025.

[17] Lee, Yoon, Na, Kim, Park. Shift-robust molecular relational learning with causal substructure (CMRL). KDD, 2023.

[18] Wei et al. ADMEOOD: Out-of-distribution benchmark for drug property prediction. IEEE BIBM, 2023.