교차 도메인 탐색과 희소한 인간 조향으로 과학 알고리즘을 발견한다. HACO는 비전 분야의 마스크 생성 모델 MaskGIT를 결정 구조 예측으로 전이해, 이산 토큰 결정 트랜스포머 MaskGXT를 만들어냈다.
인공지능은 과학 모델링의 도구를 넘어 과학 알고리즘 발견의 동반자로 작동하기 시작했다. 최근 시스템은 문헌을 읽고 가설을 제안하고 코드를 작성하며 경험적 피드백으로 반복한다. 이런 시스템의 두드러진 강점은 폭(breadth)이다. 컴퓨터 비전·언어·프로그래밍·과학을 아우르는 지식으로 학습돼, 도메인 전문가가 자연스럽게 떠올리지 않을 분야 간 전이를 제안할 수 있다.
핵심 미해결 질문은 이 폭이 현실적이고 경쟁적인 과학 ML 벤치마크에서 최첨단 알고리즘을 만들어낼 수 있는가다. 기존 ML 엔지니어링 에이전트는 주로 고정된 문제 명세 안에서 작동한다. 벤치마크·입출력 인터페이스·평가지표, 흔히 넓은 모델링 계열까지 주어진 채 더 나은 코드·하이퍼파라미터·구현 변형을 탐색한다. 기존 AI 과학자 시스템은 이 루프를 가설 생성과 논문 작성으로 넓혔지만, 가장 강한 시연은 성숙한 과학 도메인의 최첨단을 개선하는 새 알고리즘이 아니라 자율 연구 워크플로로 평가되는 경우가 많다.
희소한 인간 도메인 지침과 상호작용하는 AI 공동연구자가 새로운 모델링 원리를 식별하고, 과학 문제의 제약에 맞춰 적응시키며, 표준 도메인 벤치마크를 전진시키는 경쟁적 알고리즘을 만들어낼 수 있는가?
이를 연구하기 위해 과학 알고리즘 발견을 위한 HACO(Human–AI Co-discovery system)를 도입한다. HACO는 두 원리로 구축된다. 첫째, 교차 도메인 전이를 수행한다. 기존 도메인 모델을 교란하는 데 그치지 않고, 다른 분야의 생성 모델링 프레임워크를 탐색해 목표 과학 문제에 적응 가능한지 평가한다. 둘째, 희소한 인간 상호작용을 지원한다. 인간은 도메인 제약이나 원하는 실패 모드 교정 같은 고수준 메커니즘·목표를 제공하고, 에이전트는 후보 알고리즘을 구현·학습·평가·정제한다.
HACO를 결정 구조 예측(CSP)에 인스턴스화한다. CSP는 화학 조성으로부터 안정한 결정 구조를 요구하며 계산 재료 발견의 중심 문제다. 결정은 주기적이고, 분수 좌표는 토러스 위에 살며, 공간군 대칭이 유효성과 샘플 품질에 영향을 주고, 많은 조성이 여러 다형체를 허용한다. 따라서 CSP 개선은 단순한 코드 최적화 연습이 아니라 기하·주기성·대칭·다형체 다양성을 존중하는 생성 정식화를 선택하는 일이다.
다른 분야의 방법론을 결정 구조 예측으로 전이해 현실적 과학 ML 문제의 최첨단 알고리즘 발견에 기여할 수 있음을 증거로 제시한다.
인간–AI 과정으로 발견된 마스크 생성 결정 트랜스포머. 격자·좌표·공간군·Wyckoff 위치를 이산 토큰으로 표현하고, 주기적·대칭 제약 결정에 마스크 생성 모델링을 적응시킨다.
단일 MaskGXT 모델이 MP-20·MPTS-52에서 최첨단 매치율을 달성하고, MP-20 다형체 분할에서 METRe 정확도를 크게 개선한다.
과제. 에이전트는 화학 조성으로부터 결정 구조를 생성하는 모델 개발을 요청받는다. 목표는 MP-20 다형체 분할에서 검증 METRe를 최대화하는 것이다. METRe는 주어진 조성에 대해 어떤 참조 다형체든 복원하면 보상하므로 구조 정확도와 다형체 커버리지를 모두 포착한다. 전체 개발 루프는 MP-20 다형체 분할에 갇혀 있어, 모델 제안·구성요소 선택·샘플러 정제가 오직 검증 피드백에서만 선택된다.
탐색. 핵심 발상은 어떤 생성 프레임워크를 CSP에 쓸지를 인간이 아니라 AI 에이전트가 결정하게 하는 것이다. 에이전트는 방법론을 제안하고 CSP 모델로 인스턴스화·학습·평가하며 방법을 수정한다. 따라서 탐색 대상은 단순한 구현이 아니라 CSP를 위한 생성 모델링 프레임워크다.
생성 방법론을 탐색한다. 검증 METRe가 더 이상 개선되지 않을 때까지 전체 연산자 집합을 돌려 마스크 생성 방법론을 선택한다.
방법론을 고정하고 더 큰 예산으로 모델을 최적화한다.
모델을 고정하고 샘플링 알고리즘을 튜닝한다.
탐색 트리의 각 노드는 자기완결적 후보, 즉 CSP용 생성 모델을 정의하는 완전한 학습 프로그램이다. 단계별 후보당 예산으로 학습해 검증 METRe를 측정하고, 유망 노드를 확장하고 비생산적 노드를 가지치며 강한 계보에 더 많은 연산을 배분한다. Claude Opus 4.7이 구동하는 단일 오케스트레이터가 탐색을 통제하고 인간 조향의 유일한 인터페이스로 작동한다. 각 노드에 격리 환경을 설정하고, 8개 RTX 3090 GPU에서 GPU당 하나씩 최대 8개 후보 노드를 병렬 실행하며, 어느 노드를 확장하고 어떤 연산자를 적용할지 결정한다.
가장 두드러진 구성요소는 의도적 교차 도메인 전이를 수행하는 idea 연산자다. 현재 방법을 교란하는 대신 비전·언어 등 더 넓은 생성 모델링 문헌을 조사해, 결정에 적용된 적 없으나 CSP 경쟁에 신뢰할 만한 메커니즘을 가진 (생성 프레임워크, 아키텍처) 쌍을 반환한다. 두 기준 — CSP에 대한 신규성과 주기 결정으로의 적응성 — 으로 각 쌍을 선택한다. 본 실행에서 비전 도메인의 마스크 생성 모델 MaskGIT를 식별했다.
에이전트가 전체 루프를 돌리고 모든 모델 코드를 직접 작성했으며, 인간은 희소하게 고수준에서만 개입했다. 인간 입력을 제공 내용으로 분류한다. 메커니즘은 에이전트가 결여한 도메인 지식을 공급한다(예: 결정 대칭을 반영해야 한다, 비-i.i.d. 샘플링이 다형체 커버리지를 개선한다). 목표는 목적을 진술하고 방법은 에이전트에게 맡긴다(예: 서브빈 좌표 정밀도 복원). 두 경우 모두 인간은 고수준 메커니즘·목표를 공급하고, 에이전트가 도메인 적응을 포함해 코드로 실현한다. 이로써 자율성 주장이 보정된다. 에이전트가 구현·경험적 탐색·반복 정제를 수행하고, 희소한 인간 입력은 결여된 도메인 메커니즘·목표를 공급한다.
결정을 확산·플로 과정으로 진화하는 연속 좌표가 아니라, 이산적·부분 마스크 시퀀스로 표현하고 누락 토큰을 복원하도록 학습한다. 다만 MaskGIT를 결정에 직접 적용하는 것은 자명하지 않다. 결정은 주기적이고 대칭 중복적이기 때문이다.
CSP에서 입력은 원자 유형 집합 A, 목표는 격자 L과 분수 좌표 F의 예측이다. MaskGXT는 결정을 1+6+5N 토큰으로 토큰화한다. 공간군 토큰 1개, 양자화된 길이·각도를 위한 격자 토큰 6개, 사이트당 5개(양자화 좌표 3개, Wyckoff 토큰, 원소 유형). 원소 유형 A는 조건으로 주어지고, 공간군 g·격자·좌표·Wyckoff 토큰을 예측 대상으로 남긴다. 대칭은 별도 모듈로 부과되지 않고 구조와 함께 예측되며, 대칭·격자·좌표 토큰이 독립 디코딩되므로 그 일관성은 강제 제약이 아니라 학습으로 권장된다.
같은 결정도 단위격자 원점과 원자 순서가 임의이므로 여러 방식으로 적힐 수 있다. MaskGXT는 이 모든 기술에 동일한 공간군·Wyckoff 토큰을 부여하도록 두 온라인 증강으로 학습한다.
순서적·원형 라벨 평활. 빈을 무순서 범주로 다루면 좌표의 거리 구조와 빈 0·K−1의 인접성을 버린다. MaskGXT는 원-핫 타깃을 순서적·원형 소프트 타깃으로 대체한다. 진짜 빈에 확률 대부분을, 이웃 빈에 약간을 줘 가까운 빈 예측이 먼 빈 예측보다 손실이 작다. 격자 토큰은 파라미터가 감기지 않으므로 비순환 거리로 같은 구성을 쓴다.
마스크 교차엔트로피. 각 토큰을 확률 t~U(0,1)로 독립적으로 마스크 기호로 대체해 손상시키고, 트랜스포머가 마스크 위치의 원래 토큰을 예측하도록 학습한다. 손실은 격자·좌표·공간군·Wyckoff 네 스트림에 가중치 wm으로 합산된 마스크 교차엔트로피이며, 공간군·Wyckoff 스트림은 원-핫 타깃을 쓴다.
서브빈 좌표 정제. 이산화는 안정적 범주 표현을 주지만 기하 정밀도를 빈 폭의 절반으로 제한한다. 이를 회복하기 위해 각 격자·좌표 위치에서 트렁크 특징을 읽어 제한된 오프셋 δ∈(−½,½)를 예측하는 경량 회귀 헤드를 붙인다. 마스크 교차엔트로피 밖에서 빈 중심 대비 참 잔차로 smooth-L1 손실로 지도한다.
아키텍처는 토큰화 스킴, 트랜스포머 트렁크, 예측 헤드 세 부분이다. 1+6+5N 토큰을 임베딩한 뒤 사이트별 선형 투영 Wsite가 각 사이트의 5개 토큰 임베딩(좌표 3·Wyckoff·원소)을 하나의 원자별 특징으로 융합해 길이 1+6+N 시퀀스를 만든다. 각 원자별 특징은 정준 사이트 순서에 대한 학습 위치 인코딩과 마스크 비율 임베딩을 더한 뒤 양방향 트랜스포머로 들어간다. 트렁크는 QK 정규화 자기주의를 쓰는 Pre-LN 트랜스포머로, 각 블록이 멀티헤드 자기주의와 SwiGLU 피드포워드로 구성된다. QK 정규화는 쿼리·키를 헤드 차원으로 정규화해 내적을 제한하고, 학습 가능한 헤드별 온도 sh가 표준 1/√dh 스케일링을 대체한다.
공간군 계층 샘플링. 조성은 여러 다형체를 형성할 수 있으므로, 공간군에 따라 분기해 다양한 후보를 샘플링한다. 조성당 S개 예산에 대해 완전 마스크 시퀀스에서 공간군 사후확률을 계산하고, 가장 높은 S개 공간군을 골라 각각 하나의 샘플링 분기를 만든다. 각 분기에서 공간군 토큰을 g로 고정하고 나머지 토큰을 그리디로 디코딩한다. 남은 모든 공간군의 사후확률이 작은 임계값(0.02) 아래면 분기는 공간군과 토큰을 i.i.d.로 샘플링한다.
신뢰도 순위 그리디 디코딩. 각 분기에서 확률적 토큰 샘플링을 결정적 토큰 선택으로 대체해 가장 확률 높은 구조를 반환한다. 완전 마스크 시퀀스에서 시작해 마스크 토큰 스트림의 사후 분포를 반복 예측하고, argmax로 가장 신뢰도 높은 위치를 채운 뒤 나머지를 디코딩 스케줄에 따라 재마스크한다. 출력 공간이 이산화돼 있어 이 그리디 규칙이 유한 어휘에서 잘 정의되며, 연속 생성 과정을 적분·샘플링하는 확산·플로 샘플러와 대조된다.
실험은 두 질문에 답한다. (1) 이산 마스크 생성 정식화가 표준 1:1 평가에서 연속 확산·플로 CSP 모델을 능가하는가, (2) MaskGXT 구성요소가 기하 정확도와 다형체 커버리지를 개선하는가. MP-20(최대 20원자/셀)과 MPTS-52(최대 52원자, 출판연도 시간순 분할)에서 평가하며, StructureMatcher로 생성·참조 구조를 비교한다. METRe는 조성별로 생성 구조를 모아 같은 조성의 어떤 생성 구조든 참조와 매치하면 매치로 센다.
| 모델 | MP-20 MR↑ | MP-20 RMSE↓ | MPTS-52 MR↑ | MPTS-52 RMSE↓ |
|---|---|---|---|---|
| DiffCSP | 57.82 / 52.51 | 0.0627 | 15.79 / 14.29 | 0.1533 |
| FlowMM | 66.22 / 59.98 | 0.0661 | 22.29 / 20.28 | 0.1541 |
| OMatG | 69.83 / 63.75 | 0.0741 | 27.38 / 25.15 | 0.1970 |
| MCFlow | 69.23 / 63.14 | 0.0663 | 28.77 / 26.46 | 0.1610 |
| Crystalite† | 69.64 / 63.46 | 0.0412 | 27.26 / 24.98 | 0.1181 |
| MaskGXT | 73.79 / 67.06 | 0.0330 | 36.75 / 33.34 | 0.1004 |
MaskGXT가 두 데이터셋·두 정의 모두에서 최고 매치율과 최저 매치쌍 RMSE를 달성한다. 더 어려운 MPTS-52에서 개선이 특히 크다. 이산 좌표화에 서브빈 오프셋 회귀를 결합하면 기하 정밀도를 희생하지 않음을 시사한다.
| 모델 | MP-20 METRe↑ | MP-20 cRMSE↓ | 다형체분할 METRe↑ | 다형체분할 cRMSE↓ |
|---|---|---|---|---|
| DiffCSP | 58.80 | 0.244 | 53.14 | 0.279 |
| FlowMM | 67.00 | 0.210 | 65.18 | 0.226 |
| OMatG | 66.00 | 0.208 | 70.50 | 0.187 |
| MCFlow | 69.70 | 0.200 | 70.70 | 0.195 |
| Crystalite† | 70.45 | 0.178 | 70.87 | 0.174 |
| MaskGXT | 74.78 | 0.152 | 79.06 | 0.132 |
MaskGXT가 표준 분할과 다형체 분할 모두에서 최고 METRe·cRMSE를 얻으며, 다형체 분할에서 우위가 가장 크다. 공간군을 명시 토큰으로 예측하므로 공간군 계층 샘플링이 서로 다른 고사후 공간군에 생성을 배분해, 다형체가 여럿인 조성의 커버리지를 개선한다.
| 모델 | MP-20 METRe↑ | MP-20 cRMSE↓ | 다형체분할 METRe↑ | 다형체분할 cRMSE↓ |
|---|---|---|---|---|
| OMatG | 72.55 | 0.187 | 68.23 | 0.205 |
| Crystalite† | 72.83 | 0.164 | 68.44 | 0.198 |
| MaskGXT | 76.53 | 0.143 | 75.00 | 0.158 |
S=2에서도 MaskGXT가 두 분할 모두 최강이며, 계층 샘플링이 균일 예산을 중복 추출이 아닌 서로 다른 공간군에 쓰는 다형체 분할에서 격차가 더 벌어진다. S를 1~5로 변화시켜도 이 우위가 유지된다.
| 모델 | MP-20 MR | MP-20 RMSE | 표준 METRe | 다형체 METRe |
|---|---|---|---|---|
| MaskGXT | 73.79 / 67.06 | 0.0330 | 74.78 | 79.06 |
| − 라벨 평활 | 72.16 / 65.45 | 0.0396 | 73.16 | 77.23 |
| − 대칭 토큰 | 72.08 / 65.30 | 0.0408 | 72.51 | 74.98 |
| − 오프셋 회귀 | 73.93 / 67.11 | 0.0518 | 74.65 | 78.70 |
라벨 평활과 대칭 토큰 모두 매치율·METRe를 개선한다. 대칭 토큰 제거는 공간군 계층 샘플링을 불가능하게 해 다형체 분할에서 특히 해롭다. 오프셋 회귀 제거는 매치율에 거의 영향이 없으나 RMSE·cRMSE를 크게 높여, 오프셋 헤드가 주로 기하 정밀도를 개선함을 확인한다.
| 모델 | MP-20 MR | MP-20 RMSE | 표준 METRe | 다형체 METRe |
|---|---|---|---|---|
| MaskGXT | 73.76 / 67.06 | 0.0333 | 74.78 | 79.06 |
| − 공간군 계층화 | 73.79 / 67.06 | 0.0330 | 73.84 | 75.50 |
| − 그리디 디코딩 | 73.12 / 66.33 | 0.0517 | 74.19 | 78.39 |
| − 둘 다 | 73.28 / 66.36 | 0.0541 | 74.17 | 76.88 |
공간군 계층화 제거가 다형체 분할 METRe를 가장 크게 떨어뜨려, 고사후 공간군에 생성을 펼치는 것이 다형체 커버리지 개선의 주 메커니즘임을 확인한다. 그리디 제거는 METRe를 낮추고 cRMSE를 악화시킨다. 두 구성요소가 상보적 이득을 기여한다.
승리 계보를 따라 발생한 순서대로 세 전환점을 재현한다. 청록 박스는 자율 에이전트 턴(연산자 표시), 앰버 박스는 희소 고수준 인간 개입, 회색 박스는 인간 조향의 유일 인터페이스인 오케스트레이터다.
재료과학 밖의 생성 프레임워크를 조사하고 출판된 CSP 방법 카탈로그와 대조해 거른다. 생성 프레임워크 선택: 비전의 MaskGIT를 떠받치는 마스크 생성 모델링. 분수 좌표 토러스의 연속 영역에서 작동하는 확산·플로 베이스라인과 달리, 양자화 토큰의 이산 모델링은 범주형 사후확률을 지원하고 표준 트랜스포머를 쓰며 수백 디노이징 단계가 아닌 몇 번의 병렬 언마스킹으로 디코딩한다. 아키텍처 선택: 양방향 트랜스포머. 신규성: 이 조합은 출판 CSP 카탈로그에 없다.
각 분수 좌표 축을 구조 매칭 허용오차 내 K개 빈으로 이산화해 좌표 토큰을 만들고, 단위격자를 Niggli 6 스칼라(a,b,c,α,β,γ)로 매개변수화해 격자 토큰으로 둔다(9항 격자 행렬보다 깨끗한 타깃). 조성이 주어지므로 원자번호를 사이트별 부가정보로 임베딩해, 격자 6 + 좌표 3N 토큰을 예측 대상으로 남긴다. 분수 좌표는 회전 불변, 격자 토큰은 불변 Niggli 스칼라만 담아 등변성을 표현에 암묵 유지하므로 벡터 특징 없는 평범한 양방향 트랜스포머로 충분하다. 흡수 상태 마스킹과 마스크 위치 교차엔트로피로 학습하고 MaskGIT식 반복 병렬 언마스킹으로 샘플링한다.
좌표를 빈으로 양자화하면 기하 정밀도가 상한에 막힌다. 이산 토큰 모델을 떠나지 않고 잃어버린 정밀도를 회복하라.
현재 최적 노드에 improve 연산자를 디스패치하고, 이 목표를 프롬프트에 접어 넣는다.
각 좌표·격자 위치에서 트렁크 출력을 읽어 제한된 서브빈 오프셋을 예측하는 작은 회귀 헤드를 추가한다. 빈 중심 대비 부호 잔차로 지도하되 마스크 교차엔트로피 목표 밖에 둔다. 디코딩 시 각 값을 예측 오프셋만큼 이동한 빈 중심에 놓아, 정밀도가 더는 빈 폭에 바닥 막히지 않는다.
i.i.d. 샘플링은 독립적으로 추출하므로 한 조성의 서로 다른 다형체가 커버되지 않는다. 샘플러가 그 다형체들에 추출을 펼치게 하라.
샘플링 최적화 단계에서 improve 연산자를 디스패치하고, 이 메커니즘을 프롬프트에 접어 넣는다.
공간군이 명시 토큰이므로, 조성만 조건화한 완전 마스크 시퀀스에 한 번 순전파해 그 사후확률을 읽는다. 조성 안에서 가장 확신하는 추출을 argmax 공간군에 고정하고 나머지 추출을 서로 다른 고사후 공간군에 비복원으로 배정한다. 다양성이 이제 샘플링 잡음이 아니라 공간군 조건화에서 나온다.
주기성 인식 좌표 이산화, 순서적 라벨 평활, 토큰화된 결정학 대칭, 신뢰도 순위 그리디 디코딩을 결합한 마스크 생성 결정 트랜스포머 MaskGXT를 제시했다. 중요하게도 MaskGXT는 비전의 마스크 생성 모델링을 재료과학으로 전이하고 희소·표적 인간 조향으로 정제하는 AI 공동연구자 루프로 개발됐다. 이 과정이 대칭 토큰, 공간군 계층 샘플링, 서브빈 좌표 정제 같은 핵심 도메인 적응을 만들어 구조 정확도와 다형체 커버리지를 함께 개선한다.
CSP는 고정 데이터셋, 실행 가능 모델 코드, 빠른 학습·평가 주기, 최종 과제와 긴밀히 정렬된 검증 지표라는 드문 조합을 제공해, 알고리즘 설계를 고처리량 경험 피드백 문제로 바꾼다. 이 신호는 예산 의존적이며, 고정 연산 예산은 수렴에 더 많은 연산이 필요한 방법에 불리하다. 루프는 물리 실험·긴 학습 주기·약한 프록시 목표를 가진 도메인에서 닫기가 더 어렵다.
| 구성요소 | 값 |
|---|---|
| 좌표·격자 빈 K | 64 |
| 트랜스포머 층 / 은닉 차원 | 34 / 768 |
| 어텐션 헤드 | 12 (QK 정규화) |
| 피드포워드 / 파라미터 | SwiGLU / ≈248M |
| 순서 라벨 평활 σ | 1.0 |
| 스트림 가중치 (격자·좌표·공간군·Wyckoff) | 0.10 / 1.5 / 0.10 / 0.30 |
| 오프셋 회귀 가중치 (격자·좌표) | 0.2 / 0.2 |
| 정규화자 / 순열 증강 확률 | 0.7 / 0.5 |
| 옵티마이저 | AdamW (wd 0.05) |
| 학습률 | 4e-4, cosine→5% floor |
| 배치 크기 | 512 (MPTS-52는 128) |
| 가중치 EMA 감쇠 | 0.9999 |
| 학습 에폭 / 샘플링 단계 T | 최대 3000 (조기 종료) / 150 |
계층 샘플링의 저신뢰 폴백: 분기는 공간군이 첫 단계 사후질량의 0.02 이상을 가질 때만 그 공간군에 고정된다. 모든 공간군이 임계값 아래면 분기는 공간군을 자유롭게 두고 공간군·나머지 토큰을 i.i.d.로 추출한다. 균일 샘플링 예산 S를 1~5로 변화시켜도(Figure 5) 공간군 계층 샘플링 MaskGXT가 두 분할 모두에서 최고 METRe를 유지한다.