The Einstein Test
Evaluating Artificial Intelligence’s potential for Paradigm-Shifting Scientific Discovery and autonomous creativity.
Core Framework
연구 개요 및 핵심 개념
범용인공지능(AGI) 및 초지능(SI) 후보 시스템이 역사적 패러다임 전환 통찰(CDIs)을 독립적으로 재생산할 수 있는지 평가하는 벤치마크입니다. AI는 '시간 여행자'가 되어 과거의 미해결 과제를 해결해야 합니다.
Evaluation Modes
Distinct Difference
단순한 지식 회상(GPQA)을 넘어 창의적 생성과 자율적 발견의 사이클을 직접 측정합니다.
배경 및 동기
왜 2025년인 지금 아인슈타인 테스트가 필요한가? 지식 벤치마크에서는 이미 인간을 초월했지만, 개방형 연구에서는 여전히 20% 수준의 한계를 보이고 있기 때문입니다.
10,000 Einsteins Effect
AI가 과학 생태계의 자율 에이전트가 될 때, R&D 사이클은 년 단위에서 월 단위로 단축됩니다. 이는 산업혁명에 필적하는 생산성 증폭을 의미합니다.
AGI Redefined
튜링 테스트를 넘어 "1911년 일반상대성 이론 발견 수준의 창의성"을 AGI의 실질적 기준으로 설정합니다.
주요 과제 및 병목 현상
Discovery Deficit
추론 노력 증가에도 불구하고 특정 과학적 해석 분야에서 성능 정체 발생.
Shared Failure
최상위 모델들이 인과 추론 등 동일한 패턴의 약점에서 실패하는 경향.
Long-horizon
복잡한 다단계 실험 설계 및 숨겨진 변수(Confounders) 처리에 취약함.
Contamination
과거 발견 데이터의 학습 데이터 포함 여부를 차단하고 검증하는 기술적 난제.
방법론적 접근
-
1
Two-phase SDE
시나리오 기반 문제 풀이와 가설-실험-해석의 전체 프로젝트 사이클 평가
-
2
Test-time Compute Scaling
단순한 빠른 응답 대신 '느린 사고(Slow Thinking)'를 통한 자율 탐색 보장
-
3
Virtual DiscoveryWorld
물리 법칙이 시뮬레이션된 가상 환경 내에서 에이전트의 과학적 수행 능력 검증
미해결 문제 및 향후 비전
Measurement
CDI에 도달했는지 여부를 단순히 이분법(Binary)으로 평가할 것인가, 연속적인 점수로 측정할 것인가에 대한 지표 개발.
Verification
전향적(Prospective) 평가에서 AI가 내놓은 새로운 이론이나 물질을 검증하기 위한 막대한 자원과 실험 체계 필요.
Safety
초지능 수준의 AI가 과학적 발견 과정에서 인간의 의도와 정렬되지 않을 위험(Misalignment)에 대한 안전장치.
The Ultimate Vision
인간-AI 공생을 통한 "인류 지능의 집단적 증폭(Collective Amplification)". 우주 이해를 가속화하고 인류가 다행성 종(Multi-planetary Species)으로 진화하는 핵심 동력이 될 것입니다.
References
Benrimoh, D., et al. "The Einstein Test: Towards a Practical Test of a Machine's Ability to Exhibit Superintelligence." arXiv:2501.06948
Benrimoh, D., et al. "The Einstein Test: A Test of AI’s Ability to Generate Transformative Science." Communications of the ACM
DeepMind Cognitive Framework. "Measuring Progress Toward AGI." Google DeepMind Blog
OpenAI. "FrontierScience Benchmark."
Song, Z., et al. "Evaluating Large Language Models in Scientific Discovery." arXiv:2512.15567