표본 효율적 약물 제형 설계를 위한 에이전틱 시스템

문제는 공간이 넓다는 것만이 아니라, 기존 워크플로가 대개 작고 익숙하며 보수적인 부분만 탐색해 혁신을 제약하고 차별화된 제형 발견 기회를 제한한다는 데 있다. 부형제 스크리닝, 의사-삼원 상평형도, 실험계획법(DoE)에 기반한 전통적 접근은 노동집약적이며 광범위한 발견형 탐색보다 국소적 정제에 적합하다. BO는 실험 효율을 높였으나 여전히 여러 차례의 순차적 습식 실험에 의존한다.

제시하는 시스템은 제조·물리화학적 특성 분석·분산 어세이가 종단간으로 실행되는 통합 소형 실험실에서 동작한다. 실험 데이터를 제거한 절제 연구는 이 증거가 평균 약물 가용화의 45% 향상을 설명함을 보여, LLM의 매개변수 지식만이 아니라 구조화된 실험 증거가 이점을 이끈다는 점을 입증한다. 2차 에이전틱 배치는 모델 재학습 없이 1차 결과 대비 품질을 33% 개선한다.

기여본 연구의 핵심 공헌

1
2-에이전트(제안자-검토자) 아키텍처 — 습식 실험에 직접 투입 가능한 검증된 SEDDS 제형을 생성하며, 16회 실험 단일 배치로 4-배치 BO 기준선(64 제형)의 성능에 도달한다.
2
절제 연구 — 사내 실험 데이터가 평균 약물 가용화의 45% 향상을 설명하며, 계면활성제 적재·공용매 사용·오일 선택에서 해석 가능한 전략 변화를 만든다.
3
배치 간 인-컨텍스트 학습 — 모델 가중치 갱신 없이, 프롬프트 기반의 사전 결과 통합으로 2차 배치가 제형 품질을 33% 개선한다.
4
닫힌 루프 자율 SEDDS 실험실 시연 — 4개 실험 조건에 걸친 128개 제형을 8일 단일 캠페인 내에 설계·제조·분석한다.

§ 1

서론Introduction

현대 신약 발굴 파이프라인에서 나오는 후보 물질 중 난용성을 보이는 비율이 늘고 있으며, 개발 중 화합물의 70% 이상이 난수용성으로 BCS Class II 또는 IV로 분류된다는 추정이 있다 [Lipinski 2001; Butler 2010; Stegemann 2023]. 이 경향은 현대 소분자 후보의 증가하는 분자량·친유성·구조적 복잡성과 연관된다. 특히 BCS Class II 화합물은 위장관액에서의 용해·가용화가 경구 흡수를 제한한다.

SEDDS는 위장관액과 희석 시 자발적으로 유화되는, 오일·계면활성제·때로는 공용매로 이루어진 등방성 지질 기반 혼합물이다. 사이클로스포린, 리토나비르, 티프라나비르 등 여러 시판 경구 제품이 SEDDS 또는 관련 지질 제형에 의존한다 [Savla 2017]. 그러나 SEDDS 설계는 부형제 정체성, 상대 비율, 약물 적재가 비선형적으로 상호작용해 자기유화 효율·액적 크기·지속 가용화를 결정하는 고차원 혼합형 조합 공간을 항해해야 한다.

전통적·BO·LLM 접근의 진화

전통적 DoE

수백 제형

수 주의 수작업 반복

→

BO 유도

80 제형 · 5일

대리 모델 5배치

→

LLM 유도

16 제형 · 1일

BO-B4 동등 성능

전통적 워크플로는 부형제 용해도 스크리닝, 의사-삼원 상평형도 구성, 고전적 DoE 최적화, 반복 벤치 평가에 의존해 단일 화합물에 수백 개 제형과 수 주의 수작업을 요구한다. BO 기준선은 광범위 스크리닝을 대리 모델 유도 탐색으로 대체해 이를 5배치 80개 제형으로 압축한다 [Greenhill 2020; Shields 2021; Tom 2024; Hickman 2025]. 그러나 BO조차 대리 모델 재학습을 위해 여러 순차 배치를 요구하며, 새 화합물마다 학습 지식의 전이 없이 처음부터 최적화 캠페인을 시작해야 한다.

가설

LLM은 SEDDS 제형에 관한 광범위 지식(부형제 역할·특성, 가용화·자기유화 원리, HLB 기반 설계 논리)을 포착할 수 있으나, 그 매개변수 지식은 일반적이어서 특정 실험실의 기기·부형제 로트·어세이 프로토콜의 구체적 거동이 아니라 발표 문헌을 반영한다. 본 연구는 LLM을 구조화된 사내 실험 데이터(부형제 쌍 성능 통계, 유사 API 검색, 사전 캠페인의 수준-반응 추세)로 증강하면 이 간극을 메워 반복 BO 기준선을 따라잡거나 능가하는 표본 효율적 설계가 가능하다고 가정한다.

평가 대상은 클로파지민이다 — BCS Class II 페나진 색소 유도체(MW 473, LogP ≈ 7.7, 수용성 ≈ 0.23 mg/L)로, 극단적 친유성과 수성 희석 시 높은 침전 위험 때문에 까다로운 SEDDS 표적이다. 시스템은 닫힌 루프 설계-제조-시험 워크플로로 동작하며, LLM이 각 배치를 설계하고 습식 실험실에서 제조·분석되며 결과가 다음 설계 사이클로 피드백된다 — 인간 과학자의 수동 제형 선택 없이.

§ 2

방법Methods

2.1자율 제형 실험실

네 가지 실험 조건은 모두 자동 액체 취급 시스템과 보조 기기를 통합한 닫힌 루프 자율 실험실에서 수행되었다. 실험 메타데이터·조성 벡터·종말점 측정값이 구조화 데이터베이스에 자동 기록되며, 이는 평가 기록인 동시에 — 특히 에이전틱 2차 배치에 대해 — 후속 설계 사이클의 인-컨텍스트 증거 계층으로 기능한다. 이 인프라는 16개 제형 배치의 완전한 실행 (설계·제조·3시간 분산 어세이·후속 분석)을 약 24시간 내에 가능하게 한다. 일관된 기기·작업자·프로토콜 하에서 4개 설계 전략에 걸친 128개 제형 평가는 전통적 수작업으로는 불가능하다.

2.2에이전틱 아키텍처 — 제안자·검토자

Agent 1 · Proposer

제안자

전체 조립 컨텍스트를 받아 16개 후보 제형을 구조화 JSON 배열로 생성
각 제형은 8개 파라미터 값과 과학적 근거를 설명하는 자유 텍스트 추론 필드 포함
시스템 프롬프트가 자기유화 열역학, HLB 기반 계면활성제 선택, 침전 억제 기전, 수준-합 제약을 담음
1차(탐색): 보수적 제형과 야심찬 가설의 균형, 오일·HLB·침전 억제제 다양성 확보
2차(활용): 우수 제형 식별 후 ~70–80% 슬롯을 승자 주변 체계적 섭동에 할당

→

Agent 2 · Reviewer

검토자

동일 컨텍스트와 제안자 출력을 받아 품질 게이트로 작동
TPP 달성 가능성, 화학적 타당성, 중복 제거, 침전 위험을 평가
타당하지 않거나 중복된 제형을 교체
2차 배치에서는 활용(exploitation) 이동을 보호해 탐색-활용 전환을 강제

두 에이전트 모두 통합 추론 게이트웨이를 통해 LLM에 접근한다. 아키텍처는 설계상 모델 비종속적이어서, 구조화 출력과 큰 컨텍스트 창을 지원하는 충분히 유능한 LLM이면 무엇이든 백본으로 쓸 수 있다.

2.3사내 실험 데이터 — 3계층 컨텍스트

부형제 성능 요약

수십만 건의 기기 수준 측정으로부터 도출한 집계 통계 — 오일×계면활성제 쌍 성능 요약, 역대 최상위 제형, 수준-반응 추세. 누출 방지를 위해 모든 클로파지민 데이터는 제외.

유사 API 검색

표준 약물성 기술자의 저차원 특성 공간에서 거리로 식별한, 클로파지민과 물리화학적으로 가장 유사한 소수 API와 그 최상위 제형.

화학 컨텍스트

클로파지민과 설계 공간 내 모든 부형제의 케모인포매틱스 기술자 — 제형 생성·예측 과정에서 제1원리 추론을 가능하게 함.

절제

Untrained 조건

L1·L2를 비활성화 — 모델은 약물 프로파일, 파라미터 공간, TPP만 받고 역사적 실험 데이터는 받지 않는다.

2.4–2.5설계 공간과 목표 제품 프로파일(TPP)

설계 공간은 약물 적재, 오일·계면활성제 정체성·수준, 침전 억제제 정체성·수준, 공용매 수준에 걸친 8개 혼합형 파라미터로 구성되며, 5개 연속 수준 파라미터에 합-1 제약이 부과된다. 합-1 제약 적용 전 조합 공간은 약 10⁸개의 이산 조성 규모다. 세 가지 용해 목표(FeSSIF 단계에서 15·60·180분의 API 농도)가 직접 측정되며, 원위 위장관에서의 지속 가용화를 보상하기 위해 180분 종말점에 1.5× 가중이 부여된다.

2.6–2.7실험 조건과 평가 지표

**4개 실험 조건.** 모두 동일한 클로파지민 FeSSIF 분산 어세이·기기·작업자·프로토콜 사용.
조건	데이터	제형 수	배치
Agentic B1	학습(사내 데이터)	16	1
Agentic B2	학습 + 1차 결과	16	1
Ablation (Untrained)	사내 데이터 없음	16	1
BO baseline	대리 모델 + 배치별 재학습	80	5

농도 AUC_15–180은 15분에서 180분까지 FeSSIF 약물 농도의 사다리꼴 적분(mg·min/mL)으로 총 약물 노출의 단일 척도를 제공한다. 제형 품질 점수는 제형당 통과한 4개 품질 게이트의 비율이다 — AUC_15–180 ≥ 10, C₁₈₀ ≥ 0.05 mg/mL, F₁₈₀ ≥ 15%, 침전비(C₁₈₀/C₁₅) ≥ 0.85.

2.8해석 가능한 추론 흔적

에이전틱 아키텍처의 독특한 특징은 제안자와 검토자가 각 설계 결정과 함께 자유 텍스트 과학적 추론을 생성한다는 점이다. 모델 상태에서 실험 제안으로의 사상이 불투명한 대리 모델 최적화와 달리, LLM은 습식 실행 전에 도메인 전문가가 감사할 수 있는 자연어 흔적을 생성한다. 각 배치 생성은 세 범주의 추론 출력을 낸다 — 전체 설계 논리를 담은 전략 요약, 16개 조성 각각의 과학적 가설을 설명하는 제형별 추론, 화학적 타당성·중복·TPP 달성 가능성을 평가하는 검토자 비평.

§ 3

결과Results

3.1표본 효율적 제형 발견

에이전틱 시스템은 사내 데이터를 갖춘 채 첫 16개 제형 배치 내에서 AUC = 19.7 mg·min/mL을 달성하는 제형을 발견했으며, 이는 BO 기준선의 처음 네 배치(64개 제형 후 누적 최고 18.3)와 동등하거나 그 이상이다. BO는 다섯 번째 배치 (AUC = 21.8)에서야 비로소 에이전틱 시스템을 능가했다. 즉 에이전틱 시스템은 4배 적은 실험과 네 배치 적은 습식 작업으로 BO-B4 동등 성능에 도달했다.

그림 1. 스크리닝한 제형 수 대비 누적 최고 AUC_15–180. 에이전틱 B1(호박)은 16회 실험(1배치)으로 AUC = 19.7을 발견해 BO 기준선(청색)의 처음 네 배치와 동등하다. BO는 다섯 번째 배치(80회, 21.8)에서야 추월한다. 학습 없는 절제(점선 빨강)는 10.3에 그친다.

에이전틱 학습 (B1+B2) BayesOpt 학습 없음 (절제)

BO 기준선은 예상된 학습 곡선을 보였다 — 처음 두 배치는 누적 최고 15.7, B3에서 재학습된 대리 모델이 고성능 영역을 식별하며 18.3으로 도약, 결국 다섯 번째 배치에서 21.8에 도달했다. 학습 없는 절제는 누적 최고 AUC 10.3에 그쳐, LLM의 매개변수 지식이 구조적으로 유효한 SEDDS 조성을 만들기엔 충분하나 특정 기기·특정 API에 대한 고성능 제형을 식별하기엔 불충분함을 입증한다.

3.2제형 공간 탐색과 배치 간 다양성

원천 성능을 넘어, 에이전틱 시스템과 BO가 비슷한 영역을 탐색하는지가 중요하다. 8-파라미터 조성 벡터에 대한 UMAP 투영에서 두 접근은 대체로 별개의 영역을 점유한다 — BO는 80개 제형을 Soybean + Cremophor RH40, Sesame + PS20 계열이 지배하는 띠에 집중시키는 반면, 에이전틱 배치는 Labrafac WL + Cremophor EL, Peceol + Span 80, Captex MCT + Cremophor EL 계열이 지배하는 영역을 채운다. 고성능 제형(AUC ≥ 10)이 양쪽 영역 모두에 나타나, 두 접근이 단일 공유 최적점으로 수렴하는 게 아니라 서로 다른 고성능 제형을 발견하고 있음을 보인다.

**그림 2B.** 배치별 평가된 고유 (오일×계면활성제) 계열 수와 생산적(AUC ≥ 10) 계열 수.
배치	BO 전체 계열	BO 생산적	에이전틱 전체 계열	에이전틱 생산적
Batch 1	14	1	10	6
Batch 2	3	1	8	4

제형당 기준으로 생산적 부형제 계열에 안착한 실험 비율은 두 배치 모두에서 에이전틱(6/16, 4/16)이 BO(각 1/16)보다 높다 (B1 에이전틱 vs BO p = 0.009, 전체 에이전틱 vs BO 첫 32 p = 0.020). 즉 에이전틱 시스템은 동일 화학을 더 표본 효율적으로 다루는 BO가 아니라, 구조적으로 별개인 제형 공간 영역을 탐색하며 실험당 더 높은 밀도의 화학적으로 다양한 고성능 제형을 생산한다.

3.3사내 데이터가 성능을 높이고 전략을 바꾼다

학습 조건은 평균 AUC = 8.7로 학습 없음(6.0) 대비 +45%를 달성한다(전 TPP 게이트 6/16 vs 0/16, Fisher p = 0.018). 원천 성능을 넘어, 사내 데이터는 제형 전략에 질적 변화를 유도했다.

계면활성제 적재46% → 57% · 더 작은 액적, 견고한 자기유화

Untrained

46%

Trained

57%

공용매 적재5.0% → 1.8% · 희석 시 침전 회피

Untrained

5.0%

Trained

1.8%

오일 선택 범위8종 → 4종 · 중쇄 지질로 수렴

Untrained

8종

Trained

4종

이 변화들은 임의적이지 않고 알려진 SEDDS 설계 원칙과 정렬된다. 사내 데이터는 전통적 제형 과학자가 수개월~수년의 벤치 경험으로 습득할 일반 휴리스틱의 기기별 구현을 효과적으로 인코딩한다 — 일반적·교과서 주도 설계에서 사용 중인 특정 기기·어세이 조건에 맞춰 조정된 집중 전략으로의 이동이다.

3.4배치 간 학습이 제형 품질을 높인다

제형 품질 점수는 1차 배치 54%에서 2차 배치 72%로 향상된다(전체 게이트 통과 9/16 vs 6/16). 1차 분포는 25%(4개 중 1개 게이트 통과)에 많은 점이 몰린 탐색적 배치였으나, 2차에서는 대다수 제형이 4개 게이트를 모두 통과해 중앙값 100%에 이르렀다. 이 개선은 2차 프롬프트 아키텍처에서 비롯된다 — 1차 결과를 주입하면 제안자가 TPP로 채점된 마스터 시트를 받아 ① 우수 제형과 공유 조성 특징 식별, ② 슬롯 70–80%를 승자 주변 체계적 섭동에 할당, ③ 나머지를 교차 조합 또는 정당화된 탐색에 예약한다. 모델 가중치 갱신이 아니라 구조화된 실험 증거에 대한 인-컨텍스트 학습으로 단일 API 캠페인 내 학습을 입증한다.

3.5LLM 추론의 정성 분석

Proposer — Batch 1 전략기기 보정 설계

"당신 기기에서 작은 액적 크기가 입증된 오일/계면활성제 쌍에 닻을 내린다 — Captex 355 MCT + Cremophor EL(중앙값 ~127 nm), Captex 355 MCT + Polysorbate 80(~119 nm) […]. 대부분 제형에서 높은 계면활성제 분율(0.55–0.70)을 써 액적 크기를 낮춘다(역사적 추세: 60–80% 계면활성제 → ~116 nm 중앙값)."

모델은 L1 역사적 데이터셋에서 계산한 기기별 중앙값 액적 크기와 수준-반응 추세를 인용해 정량 증거를 조성 결정으로 번역한다. 이것이 절제 조건에 없는 기기 보정이다 — L1 없이는 절제 제안자가 교과서적 HLB 추론으로 후퇴해 45% 향상의 근저가 되는 더 낮은 평균 AUC를 냈다.

Proposer — Batch 2 전략인-컨텍스트 학습

"명확한 승자 화학: Peceol + Span 80 + VA64(샘플 6)가 낮은 초기 분율에도 매우 강한 후기 분율(0.935 @180분)을 냈다 — 소화/혼합-미셀 기반 '램프업' 기전을 시사하며 활용할 가치가 있다('고-HLB 계면활성제만' 가정과 대비되는 의외의 결과)."

이 발췌는 세 측면을 보인다 — ① 채점된 1차 결과에서 우수 제형 식별, ② 결과가 통상 SEDDS 설계 논리와 모순됨을 인식 (저-HLB 계면활성제 Span 80, HLB 4.3이 임계 180분 종말점에서 고-HLB 대안을 능가), ③ 관찰을 설명하는 기전 가설 생성. 다만 여기서 호출된 리파아제 매개 소화 기전은 일반 SEDDS 문헌 가정을 반영하며, 본 연구의 분산 어세이는 리파아제가 없다. 조성 이동 자체는 경험적 1차 결과로 뒷받침되었고, 이 불일치는 부형제·화학 계층과 함께 명시적 어세이 컨텍스트를 공급하라는 구체적 프롬프트 증강 개선점을 가리킨다. 시스템은 2차 슬롯의 69%를 이 및 두 다른 승자 주변의 체계적 섭동에 할당해 탐색-활용 전환을 프롬프트 아키텍처만으로 실행했다.

부록 C · 배치별 평균 AUC (그림 S1)

배치별 평균: BO B1–B5 = 4.8 / 4.7 / 11.0 / 10.2 / 13.4, Untrained = 6.0, Agentic B1 = 8.7, Agentic B2 = 10.0. 에이전틱의 누적 최고 우위(그림 1)는 배치 전체의 평균 동등성이 아니라 Agentic B1 분포의 상위 꼬리를 반영한다. 에이전틱 B1 vs BO B1 AUC p = 0.027, TPP p = 0.018, 에이전틱 32 vs BO 80 TPP p = 0.045.

§ 4

논의Discussion

사내 데이터의 역할

가치는 LLM이 아닌 조합에 있다

해석 가능한 전략 변화와 결합된 45% AUC 향상은 가치 제안이 LLM 단독이 아니라 LLM 추론과 구조화된 실험 증거의 결합임을 입증한다. 학습 없는 모델은 화학적으로 유효한 제형을 내지만, 특정 API·기기에 대한 고성능 조성을 식별할 기기별 보정이 없다. 이는 도메인 특화 학습 데이터가 모델 아키텍처 선택을 일관되게 능가한다는 ML 유도 제형 설계의 관찰과 일치한다.

표본 효율의 보완재, 다양성

다양성은 부산물이 아닌 일급 결과

BO는 대리 모델이 식별한 좁은 고기댓값 영역에 예산을 집중해 단일 화학 계열의 근사 중복을 많이 만든다. 에이전틱 시스템은 쌍 수준 역사적 성능과 유사 API 검색에 유도되어 더 넓은 부형제 계열에 예산을 분산하고 여러 계열에서 고성능 제형을 회수한다. 특허 차별화·공급자 위험·부형제 가용성·규제 선례가 모두 중요한 제약 개발에서 이 다양성은 일급 결과다.

인-컨텍스트 vs 매개변수 학습

경사 갱신 없는 탐색-활용 전환

B1에서 B2로의 품질 향상은 전적으로 프롬프트 엔지니어링으로, 경사 갱신이나 미세조정 없이 일어난다. 데이터가 희소하고 캠페인 특화적인 제약 환경에서 특히 가치 있다. 매 배치 후 통계 모델 재학습을 요구하는 대리 모델 최적화와 대비되며, 2차 시스템 프롬프트와 주입된 사전 결과가 재학습된 대리 모델의 기능적 역할을 한다.

자율 실험 설계와의 관계

최적화 루프를 증강이 아닌 대체

자율 화학 합성 계획을 시연한 선행 연구를 확장해, 본 시스템은 LLM이 최적화 루프를 전면 대체하는 영역에서 동작한다. 제안자-검토자 아키텍처는 화학적으로 부적절한 제안 비율을 줄이는 자기비판 형태를 제공하며, 사고 사슬 흔적은 블랙박스 접근에 없는 감사 가능한 과학적 문서가 된다.

한계와 향후 방향

본 연구는 단일 API(클로파지민)를 단일 분산 어세이에서 평가한다. 구조적으로 다양한 화합물, 대안적 SEDDS 플랫폼, 다른 어세이 조건으로의 일반화는 입증되어야 한다. 표본 크기와 제한된 배치 수는 쌍별 비교의 통계적 검정력을 제한한다. 또한 시스템은 동일 기기의 사전 캠페인에서 나온 구조화 역사 데이터 접근을 요구하므로, 그런 데이터가 없는 실험실은 학습 없는 조건에서 시작해 화합물을 거치며 증거를 축적해야 한다. 자연스러운 다음 단계는 축적된 사내 SEDDS 코퍼스로 파운데이션 모델을 미세조정해 에이전틱 파이프라인에 통합하는 것이다 — 아키텍처가 백본 비종속적이므로 도메인 적응 모델을 현재 백본의 드롭인 교체로 배치할 수 있다. 또한 추론 흔적 접근성은 배포 구성에 의존하므로(상용 모델은 사고 사슬 노출 정도가 다름), 여기 문서화된 해석 가능성 이점은 모델 추론을 노출하는 구성 하에서 달성 가능한 것으로 이해해야 한다.

더 넓은 함의. 에이전틱 아키텍처는 SEDDS에 국한되지 않는다 — 잘 정의된 파라미터 공간, 측정 가능한 목표, 가용한 역사 데이터를 가진 어떤 제형 설계 문제든 동일한 제안자-검토자/컨텍스트 파이프라인의 혜택을 볼 수 있다. 수동적 도구에서 자율 과학자에 이르는 스펙트럼에서 본 시스템은 중간 위치를 점한다 — 실험 설계를 자율 생성·품질 게이팅하되, 습식 실험실에서의 인간 실행과 캠페인 수준 결정(예: 3차 배치 실행 여부)에는 인간 판단에 의존한다.

§ 5

결론Conclusion

SEDDS 제형 설계를 위한 에이전틱 LLM 아키텍처를 제시했다. 16회 실험 단일 배치로 4-배치 BO 기준선(64 제형)의 성능에 도달하고, BO는 다섯 번째 배치에서야 이를 능가한다. 시스템의 효과는 구조화된 사내 실험 데이터에 결정적으로 의존하며 (+45% AUC 향상), 해석 가능한 제형 전략 변화를 만들고, 모델 재학습 없이 배치 간 인-컨텍스트 학습을 입증한다. 이 결과는 실험실 특화 실험 증거에 기반한 LLM 유도 제형 설계가 더 표본 효율적인 제약 개발을 향한 실용적 경로를 제공함을 시사한다.

핵심 메시지

이 이득은 닫힌 루프 자율 실험실에서 얻어졌다. 어느 한 구성 요소만이 아니라 에이전틱 설계와 물리적 자동화의 결합이 단일-일(single-day) 제형 발견을 향후 개발의 실현 가능한 길로 만든다.

§ REFERENCES

참고문헌References · 발췌

Amidon 1995 A theoretical basis for a biopharmaceutic drug classification (BCS). Pharmaceutical Research 12:413–420.

Bannigan 2023 Machine learning models to accelerate design of polymeric long-acting injectables. Nature Communications 14:35.

Boiko 2023 Autonomous chemical research with large language models. Nature 624:570–578.

Bran 2024 Augmenting large language models with chemistry tools. Nature Machine Intelligence 6:525–535.

Brown 2020 Language models are few-shot learners. NeurIPS 33:1877–1901.

Butler 2010 The developability classification system. J. Pharm. Sci. 99:4940–4954.

Caldas Ramos 2025 A review of LLMs and autonomous agents in chemistry. Chemical Science 16:2514–2572.

Cherniakov 2015 Self-nano-emulsifying drug delivery systems: an update. Expert Opin. Drug Deliv. 12:1121–1133.

Craig 2025 LLMs as virtual instruments for drug formulation. NeurIPS 2025 Workshop.

Gao 2021 Integrated in silico formulation design of SEDDS. Acta Pharm. Sin. B 11:3585–3594.

Greenhill 2020 Bayesian optimization for adaptive experimental design: a review. IEEE Access 8:13937–13948.

Hickman 2025 Atlas: a brain for self-driving laboratories. Digital Discovery 4(4):1006–1029.

Jablonka 2023 14 examples of how LLMs can transform materials science and chemistry. Digital Discovery 2:1233–1250.

Lipinski 2001 Experimental and computational approaches to estimate solubility and permeability. Adv. Drug Deliv. Rev. 46:3–26.

Pouton 1997/2000/2006 Formulation of self-emulsifying drug delivery systems; lipid formulation classification system.

Savla 2017 Review of FDA approved drugs using lipid-based formulations. Drug Dev. Ind. Pharm. 43:1743–1758.

Shields 2021 Bayesian reaction optimization as a tool for chemical synthesis. Nature 590:89–96.

Shultz 2019 Two decades under the influence of the Rule of Five. J. Med. Chem. 62:1701–1714.

Tom 2024 Self-driving laboratories for chemistry and materials science. Chem. Rev. 124(16):9633–9732.

Wei 2022 Chain-of-thought prompting elicits reasoning in LLMs. NeurIPS 35:24824–24837.

Xu 2024 AGILE platform: deep learning to accelerate LNP development for mRNA delivery. Nature Communications 15:6305.

Zaslavsky 2023 A dataset of formulation compositions for SEDDS. Scientific Data 10:914.