Sungsoo's Summary | CLADD Framework

1. 정의 (Definition)

CLADD(Collaborative framework of LLM Agents for Drug Discovery)는 신약 개발 태스크에 특화된 검색 증강 생성(RAG) 기반의 멀티 에이전트 협업 프레임워크이다. 거대 언어 모델(LLM)을 기반으로 구동되는 여러 에이전트가 각자의 역할을 나누어 생화학 지식 그래프(KG) 및 분자 주석 데이터를 동적으로 검색, 요약, 통합하여 개방형 질문에 답한다.

비유하자면, 다양한 분야의 전문의들이 모여(멀티 에이전트) 최신 의학 백과사전과 임상 데이터를 실시간으로 찾아보고(RAG 기반 오픈북 시험) 복잡한 환자의 분자적 특성을 논의하여 최적의 처방을 내리는 '전문가 협의체'와 같다.

2. 문제 정의 (Problem Definition)

기존 신약 개발 분야에서 LLM을 활용하려면 방대한 데이터에 맞춘 도메인 특화 미세조정(Fine-tuning)이 필수적이었다. 이는 매일 쏟아지는 실험 데이터를 즉각 반영할 수 없는 한계가 있다.

이는 마치 '정적인 암기형 학생'에게 끊임없이 변화하는 현대 생물학 지식을 매번 강제로 재학습시키려는 것과 같은 비효율을 초래한다.

1. 도메인 특화 미세 조정(Fine-tuning)의 한계

신약 개발 작업은 대개 비용이 많이 드는 도메인 특화 미세 조정을 필요로 하며, 이는 최신 일반 목적 LLM 아키텍처를 유연하게 적용하는 데 걸림돌이 된다.
비싼 비용을 들여 구축한 모델을 최신 상태로 유지하는 것이 복잡하며, 반복적인 학습 시 기존 지식을 소실하는 치명적 망각(Catastrophic Forgetting) 문제가 발생한다.

2. 과학 데이터의 동적 통합 및 업데이트 불가능

실험과 연구를 통해 방대한 양의 데이터가 실시간으로 생성되나, 정적인(Static) LLM은 이러한 새로운 통찰력을 신속하게 통합하지 못한다.
모델의 지식이 고정되어 있어 최신 과학적 진보를 반영한 답변을 제공하는 데 한계가 있다.

3. 데이터의 이질성과 엔티티 매칭의 한계

생물화학 데이터는 분자, 단백질, 질환 간의 관계가 복잡하게 얽힌 극심한 이질성(Heterogeneity)을 띠고 있어 이를 효과적으로 통합하기 어렵다.
화학적 탐색 공간이 사실상 무한하여 지식 그래프(KG)에서 질의 분자와 정확히 일치하는 정보를 찾는 정밀 검색 방식은 그 효과가 제한적이다.

4. 복잡하고 개방적인 추론 요구

신약 개발 관련 질문은 단순한 패턴 매칭을 넘어선 맥락 의존적인 추론을 요구하지만, 기존 모델은 새로운 증거에 적응하거나 가보지 않은 작업에 대해 일반화된 추론을 수행하는 능력이 부족하다.

5. 문제 설정의 공식화 (Problem Setup)

본 시스템은 질의 분자( $g_{q}$ )와 수행할 작업 프롬프트( $I$ )가 주어졌을 때, 외부 지식을 동적으로 통합하여 최적의 답변( $A_{g_{q}}$ )을 생성하는 것을 목표로 한다.
이 방식은 이진 분류, 캡셔닝, 세트 기반 예측 등 다양한 신약 개발 작업에 제로샷(Zero-shot)으로 적용될 수 있어야 한다.

3. 핵심 개념 (Key Concepts)

멀티 에이전트 협업

정보 계획, 그래프 탐색 등 특화된 임무를 맡은 AI 요원들의 상호 작용 구조.

분자 도메인 RAG

파라미터 업데이트 없이 외부 지식에 접근하는 '오픈북 시험' 기법.

앵커 약물 기반 검색

미지의 지형에서 가장 가까운 '랜드마크'를 찾아 경로를 유추하는 원리.

1. 멀티 에이전트 협업 프레임워크 (Multi-Agent Collaborative Framework)

CLADD는 복잡한 신약 개발 작업을 수행하기 위해 서로 다른 역할과 데이터 소스에 특화된 여러 에이전트가 협력하는 구조를 가진다. 각 에이전트는 독립적인 LLM 인스턴스로 구현되어 특정 행동을 유도하는 프롬프트를 통해 작동하며, 모듈형 설계를 통해 정보 처리 효율을 극대화한다.

계획 팀 (Planning Team): 작업 지침과 질의 분자를 분석하여 외부 지식의 관련성을 평가하고 가장 적합한 데이터 소스 및 전략을 결정한다.
지식 그래프 팀 (KG Team): 지식 그래프에서 질의 분자와 맥락적으로 관련된 정보를 추출하고 요약한다.
분자 이해 팀 (MU Team): 외부 주석 데이터, 구조 정보, 타 팀의 보고서를 통합하여 분자에 대한 포괄적인 분석 보고서를 작성한다.
예측 에이전트 (Prediction Agent): 모든 팀의 분석 결과를 종합하여 최종 답변을 생성하며, 이진 분류부터 개방형 답변까지 다양한 형식을 지원한다.

2. 에이전틱 RAG (Agentic Retrieval-Augmented Generation)

도메인 특화 미세 조정(Fine-tuning) 없이도 일반 목적의 LLM이 외부 생물화학 지식을 동적으로 활용할 수 있게 하는 기술이다. 이를 통해 미세 조정에 소요되는 막대한 비용을 절감하고, 새로운 실험 결과나 연구 문헌과 같은 동적인 데이터를 실시간으로 시스템에 통합할 수 있다. 또한 미세 조정 시 발생하는 기존 지식 망각 문제를 방지한다.

3. 앵커링 접근법 (Anchoring Approach)

질의 분자가 지식 그래프(KG) 내에 존재하지 않는 경우 발생하는 검색 한계를 해결하기 위한 방법론이다. 질의 분자와 구조적으로 가장 유사한 약물을 KG 내에서 찾아 '앵커 약물(Anchor Drug)'로 설정하고, 이 앵커로부터 파생된 지식을 질의 분자의 맥락 정보로 활용한다.

구조적 유사성 측정: 3D 기하학 정보를 학습한 그래프 신경망(GNN) 임베딩의 코사인 유사도와 도메인 특화 지표인 타니모토 유사도를 결합하여 앵커 약물을 선정한다.
2-홉 경로(2-hop Paths) 탐색: 앵커 약물과 연결된 단백질, 질병 등 생물학적 개체를 거쳐 다른 약물로 이어지는 경로를 분석함으로써 의미론적으로 연관된 약물 그룹을 식별한다.

4. 이질적 데이터 통합 (Heterogeneous Data Integration)

분자, 단백질, 질환 및 이들 사이의 복잡한 관계를 포함하는 극도로 이질적인 데이터를 단일 프레임워크 내에서 처리한다. 텍스트 형태의 주석 데이터베이스(예: PubChem)와 구조화된 지식 그래프(예: PrimeKG)를 동시에 활용하며, 외부 캡셔닝 도구까지 통합하여 정보의 공백을 메운다.

5. 해석 가능성 및 유연성 (Explainability and Flexibility)

에이전트 간에 주고받는 메시지 체인을 통해 최종 예측 결과에 도달한 논리적 근거를 투명하게 제공한다. 이는 과학자와 AI 간의 협업에서 중요한 신뢰성을 확보해 준다. 또한 특정 작업에 종속되지 않고 약물-타겟 예측, 독성 분석, 물성 캡셔닝 등 광범위한 신약 개발 작업에 제로샷(Zero-shot)으로 적용 가능하다.

8. 연구 방법론 (Methodology)

계획 팀: 정보 검색의 지휘자. 외부 데이터 활용 여부를 선별.
지식 그래프 팀: 앵커 약물을 찾고 생물학적 관계(2-hop 경로)를 요약.
분자 이해 팀: 최종 결과 종합 및 근거 도출.

Post-2025 Trend

1. 문제 설정 (Problem Setup)

본 시스템은 질의 분자(gq)와 특정 작업에 대한 텍스트 프롬프트(I)가 주어졌을 때, 이에 적합한 답변(Agq)을 생성하는 것을 목표로 한다. 이 과정은 도메인 특화 미세 조정 없이 외부 지식을 동적으로 검색하고 통합하는 검색 증강 생성(RAG) 방식을 기반으로 수행된다. 이를 통해 이진 분류, 분자 캡셔닝, 세트 기반 예측 등 다양한 신약 개발 작업을 지원한다.

2. 계획 팀 (Planning Team)

계획 팀은 질의 분자와 관련된 외부 지식의 가용성을 평가하고 정보 처리 전략을 수립한다. 두 개의 독립적인 에이전트로 구성된다.

분자 주석 플래너 (MolAnn Planner): PubChem과 같은 외부 데이터베이스에서 질의 분자의 주석 정보를 검색한다. 검색된 정보가 분석에 충분한지 판단하며, 정보가 부족할 경우 외부 캡셔닝 도구를 추가로 호출할지 결정한다.
지식 그래프 플래너 (KG Planner): 지식 그래프(KG) 내에 질의 분자와 구조적으로 유사한 '앵커 약물(Anchor Drug)'이 존재하는지 확인한다. 3D 기하학 정보를 학습한 GNN 임베딩을 통해 코사인 유사도를 계산하고, 타니모토 유사도를 병행 활용하여 KG 팀의 가동 여부를 결정한다.

3. 지식 그래프 팀 (KG Team)

KG 플래너가 활성화되면 작동하며, 지식 그래프에서 질의 분자의 맥락을 확장하는 역할을 수행한다.

관련 약물 검색: 앵커 약물을 기점으로 2단계 경로(2-hop paths)를 탐색하여 생물학적 개체(단백질, 질환 등)를 공유하는 관련 약물들을 식별한다.
약물 관계 에이전트 (DrugRel Agent): 식별된 관련 약물들의 이름을 바탕으로 LLM의 내부 지식을 활용하여 질의 분자와의 구조적, 약리적 관계를 분석하는 보고서를 생성한다.
생물학적 관계 에이전트 (BioRel Agent): 지식 그래프 상의 서브그래프 정보를 요약한다. 앵커 약물과 관련 약물들이 타겟 단백질, 적응증, 부작용 등과 어떻게 생물학적으로 연결되어 있는지 상세 보고서를 작성한다.

4. 분자 이해 팀 (MU Team)

분자 이해 팀은 외부 데이터와 타 팀의 분석 결과를 통합하여 분자에 대한 최종적인 심층 분석을 수행한다.

외부 도구 연동: 필요 시 외부 분자 캡셔닝 모델을 사용하여 분자의 물성 정보를 텍스트 형태로 생성하고 이를 기존 주석 데이터와 결합한다.
분자 이해 에이전트 (MU Agent): 분자의 구조 정보(SMILES 등)와 주석 데이터, 그리고 KG 팀(DrugRel, BioRel)에서 전달받은 보고서를 모두 통합하여 작업을 위한 포괄적인 근거 자료를 구성한다.

5. 예측 에이전트 (Prediction Agent)

예측 에이전트는 전체 파이프라인의 최종 단계로, 분자 이해 팀과 지식 그래프 팀이 제출한 모든 보고서를 종합 검토한다. LLM의 제로샷 추론 능력을 활용하여 사용자가 요청한 특정 작업(예: 독성 예측 결과 도출 또는 분자 설명 작성)을 완료하고 최종 답변을 생성한다.

10. 미해결 과제 (Unsolved Problems)

정적 단방향 검색의 한계 (반복적 성찰 루프 부재)
기전적 인과성 매핑 부족 (생물학적 표현 언어 수준 도달 필요)
자율적 가설 검증 부재 (실제 실험 데이터 결합 능력 부족)

1. 회귀 기반 작업(Regression-based tasks) 처리 역량 부족

현재 시스템은 이진 분류, 오픈 엔디드 답변, 세트 기반 예측에 집중되어 있다. 그러나 실제 신약 개발에서는 실험 분석 데이터(assay details)를 해석하고 구체적인 수치 결과를 도출해야 하는 회귀 기반 작업이 필수적이다. 언어 모델이 정밀한 수치적 답변을 생성하고 이를 해석하는 능력을 강화하는 것이 주요 과제다.

2. 예측 결과의 불확실성 구간(Uncertainty intervals) 결여

신약 개발과 같은 고위험 의사결정 분야에서는 모델이 내놓은 예측값의 신뢰도를 측정할 수 있는 불확실성 구간 정보가 중요하다. 현재 CLADD는 결정론적인 답변이나 근거 보고서를 생성하는 데 중점을 두고 있으며, 통계적인 불확실성을 정량화하여 제공하는 기능은 아직 구현되지 않았다.

3. 위상학적 및 기하학적 정보 주입의 한계

실험 결과 분석에 따르면, BACE 데이터셋과 같이 분자의 2D 위상학(topological) 정보나 3D 기하학(geometric) 정보가 결과 예측에 결정적인 역할을 하는 경우 LLM 기반의 접근법이 전통적인 GNN 모델보다 낮은 성능을 보였다. 분자의 핵심적인 물리적 구조 정보를 LLM의 이해 과정에 더욱 효과적으로 주입하는 기술적 보완이 필요하다.

4. 복합 에이전틱 워크플로우로의 확장성 과제

CLADD는 현재 독립적인 추론 도구로 작동하고 있다. 향후에는 단순한 지식 검색을 넘어 실제 실험실의 자동화된 실험 시스템과 계산 시스템을 결합한 더 복잡한 에이전틱 워크플로우(complex agentic workflows)의 구성 요소로 통합되어야 한다. 이를 위해 하드웨어와의 연동 및 자율적 실험 설계 능력의 확보가 요구된다.

5. 외부 지식의 희소성 및 품질에 대한 의존성

시스템의 성능은 외부 지식 그래프나 주석 데이터베이스의 풍부함에 크게 의존한다. 화학적 탐색 공간의 방대함으로 인해 데이터베이스에 정보가 없거나 매우 희소한(sparse) 경우, 모델이 도출할 수 있는 통찰력에 한계가 발생한다. 지식 기반이 부족한 '정보 부재' 상황에서도 모델의 추론 성능을 안정적으로 유지하는 방안이 마련되어야 한다.

11. 향후 연구 방향 (Future Directions)

차세대 신약 개발 시스템을 위해 자기 진화형 에이전트 도입과 미분 가능한 도메인 인지 검색 통합이 필수적이다.