본 요약본은 관측 데이터로부터 간결하고 해석 가능한 수학적 표현을 발견하는 기계 학습 기법인 기호 회귀(Symbolic Regression, SR)의 현재 상태와 미래 방향을 다룹니다. 특히 2024-2025년을 기점으로 대규모 언어 모델(LLM)과 Transformer 아키텍처의 통합이 가속화되고 있습니다.
1. 정의: 현대적 관점에서의 SR 재정의
- 핵심 기능: SR은 관측된 데이터로부터 가장 간결하고 해석 가능한 수학적 표현(방정식)을 자동으로 발견합니다.
- 전통적 접근: 역사적으로 SR은 수식을 트리 구조로 표현하고 유전 프로그래밍(Genetic Programming, GP)을 통해 진화시켰습니다.
- 현대적 패러다임 전환 (2024-2025): LLM의 과학적 사전 지식과 Transformer의 엔드투엔드 생성 능력을 결합한 하이브리드 접근 방식으로 재정의되고 있습니다.
- 데이터 피팅 그 이상: 자연어 프롬프트나 손실 함수를 통해 도메인 지식(예: 물리적 제약 조건)을 통합하여 물리적으로 타당한 방정식을 우선시합니다.
- 결과: SR은 단순한 '블랙박스 예측' 도구에서 과학자가 직접 검증하고 확장할 수 있는 '해석 가능한 발견 도구'로 진화하고 있습니다.
2. 핵심 개념: 최근 연구의 주요 메커니즘
- 표현 방식: 방정식은 트리(연산자, 변수, 상수) 또는 프로그램(코드) 형태로 모델링됩니다. 복잡도는 노드 수나 표현식 길이로 측정됩니다.
- 적합도 함수 (Fitness Function): MSE, 복잡도 페널티, 도메인 지식 점수의 조합입니다. 물리 기반 SR(PiSR)은 '차원 일치성'과 '물리적 실재성'을 평가 지표에 추가합니다.
- 탐색 전략: GP, 몬테카를로 트리 탐색(MCTS), Transformer 생성, LLM 제안 및 반복 피드백 등이 활용됩니다.
- 상수 최적화: 수식 구조가 고정된 후, Levenberg-Marquardt와 같은 비선형 최적화 기법을 통해 상수를 정밀하게 조정합니다.
3. 서론: SR 연구의 배경 및 중요성 (2025 기준)
- 2024년 이후 주요 변화: LLM의 등장으로 과학적 상식(LLM-SR, LaSR 등)의 자동 통합이 가능해졌으며, Transformer와 MCTS의 결합으로 계획 능력이 향상되었습니다.
- AI for Science에서의 중요성: 전통적인 딥러닝(NN)과 달리 높은 해석력과 일반화 성능을 제공합니다. 물리 법칙 재발견부터 산업 모델링까지 인간 과학자와 유사한 통찰력을 제공합니다.
- 검증: SRBench 업데이트 및 ICLR/NeurIPS 발표 논문들은 LLM 기반 방법론이 전통적 GP보다 도메인 외(Out-of-domain) 일반화에서 월등함을 입증했습니다.
"SR은 단순히 데이터를 읽는 도구를 넘어, 인간 과학자와 협력하는 지능형 파트너로 진화하고 있습니다."
4. 도전 과제: 현재 기술적 한계
- 탐색 공간 폭발: 변수와 연산자 조합이 기하급수적으로 증가하여 고차원 데이터 탐색이 어렵습니다.
- 노이즈 취약성: 1-5%의 노이즈만으로도 잘못된 수식을 선택할 위험이 있으며, 전통적 GP는 특히 이에 취약합니다.
- 도메인 지식 통합 비용: 과거 PiSR은 전문가의 수동 입력이 필요했으나, LLM 통합을 통해 이를 자동화하는 과정이 아직 진화 중입니다.
- 벤치마크 성능: Feynman 방정식 등 주요 벤치마크에서의 완전 복구율은 여전히 50-70% 수준에 머물러 있습니다.
5. 주요 연구 질문 (Research Questions)
- LLM의 과학적 사전 지식을 손실 함수나 탐색 가이드에 어떻게 가장 효율적으로 주입할 것인가?
- 노이즈가 있는 환경에서 구조적 타당성과 수치적 정확성을 동시에 보장하는 손실 함수 설계가 가능한가?
- Transformer나 MCTS를 활용한 '엔드투엔드' 생성과 '반복적 개선' 사이의 균형을 어떻게 맞출 것인가?
6. 주요 방법론 (Methods): 최근 논문의 알고리즘
ICLR 2025 Oral
LLM-SR (Shojaee et al.)
LLM이 과학적 지식을 바탕으로 '방정식 프로그램 골격'을 제안하고 진화 알고리즘으로 파라미터를 최적화합니다.
NeurIPS 2024
LaSR (Grayeli et al.)
LLM이 가설로부터 추상적 개념을 Zero-shot으로 추출하여 진화시키며, LLM 스케일링 법칙을 발견했습니다.
State-of-the-Art
SymFormer (Vastl et al.)
Transformer 기반 엔드투엔드 생성 모델로, 데이터 입력만으로 수식 전체를 출력하며 높은 속도와 노이즈 강건성을 보입니다.
7. 주요 응용 분야
- 과학적 발견: 물리/생물학 데이터에서 기존 SOTA를 뛰어넘는 정확한 방정식 발견.
- 엔지니어링 & 에너지: 핵 데이터 모델링(KAN 기반 SR) 및 전력망 안정성 모델링.
- 물리학 & 천문학: 표준 모델 너머의 물리 법칙 및 혼돈 계/전염병 모델의 재발견.
- 금융 & 기타: 규제 준수가 중요한 금융 리스크 모델링 및 재료 노후화 예측.
8. 미해결 과제 (Open Problems)
- 완전한 기호 복구: 고차원, 강한 노이즈가 포함된 실제 데이터에서의 완벽한 복구는 여전히 난제입니다.
- LLM 할루시네이션: LLM이 물리적으로 틀린 방정식을 제안할 위험이 존재합니다.
- 계산 비용: 대규모 MCTS와 LLM 호출에 따른 높은 연산 비용 문제가 남아 있습니다.
9. 향후 전망: 2026-2030 연구 방향
- 멀티모달 LLM + KAN 하이브리드: 이미지, 텍스트, 수치 데이터를 동시에 처리하는 '시각적 SR'의 등장.
- Foundation SR Models: 사전 학습된 대규모 SR 전용 Transformer/MCTS 모델의 파인튜닝 패러다임.
- Interactive SR: 과학자가 자연어로 제약 조건을 추가하는 실시간 협업 발견 시스템.
- 물리/산업 통합: 로보틱스 및 에너지 그리드 등 실시간 제어 시스템에 PiSR 직접 배포.
Conclusion
2025년 현재, SR은 "데이터에서 법칙을 읽어내는 도구"에서 "인간 과학자와 협력하는 지능형 파트너"로 변모하고 있습니다. 도메인 지식을 자연스럽게 통합하고 해석력을 극대화하는 방향으로의 연구는 AI for Science 분야에서 가장 유망한 프런티어 중 하나입니다.