Research Release 2026

SciDataCopilot

Accelerating AGI-driven discovery with an agentic framework for Scientific AI-Ready data preparation.

Core Paradigm

What is "Scientific AI-Ready"?

Task-conditioned

데이터를 단순한 텍스트가 아닌, 특정 과학적 의도와 도메인 제약 조건에 맞게 구조화합니다.

Downstream-compatible

후속 분석 툴이나 머신러닝 모델 학습에 즉시 투입 가능한 포맷으로 변환합니다.

Cross-modal integration

실험값, 서열, 영상 등 서로 다른 모달리티를 정렬하고 유기적으로 결합합니다.

🔬

Scientific Data Lifecycle

From Raw Chaos to AI-Ready Insight

Multi-Agent Orchestration

LangGraph 기반의 워크플로우를 통해 4가지 핵심 에이전트가 협력하여 복잡한 전처리를 수행합니다.

Data Access

데이터 레이크 검색 및 UniProt 등 외부 DB로부터 미가공 실험 데이터 획득을 담당합니다.

Intent Parsing

연구 요구사항을 분석하여 처리 단계를 설계하고, 케이스 레이크를 참조해 실행 계획을 검증합니다.

Data Processing

LLM 기반 코드 생성 및 도구 활용을 통해 자가 수정(Self-repair) 루프가 포함된 위상적 실행을 수행합니다.

Data Integration

최종 결과물을 조립하고, 데이터 헬스 스코어링을 통해 품질 및 전략을 종합 분석합니다.

Benchmarks & Applications

🧬

Life Science

UniProt에서 효소 촉매 데이터셋 21.4만 건을 자동 수집 및 가공하여 연구 효율을 극대화했습니다.

20x Scalability Increase
214K Processed Records
🧠

Neuroscience

EEG/MEG 데이터의 아티팩트 교정 및 에포크 추출 자동화.

3-5x Faster Processing
🌍

Earth Science

복잡한 시간적 제약 하의 기상 데이터 병합 및 평균화 작업.

30x Efficiency Boost vs Manual

Solving Scientific Data Challenges

이질적 데이터의 파편화 해결

도메인 지식 기반 전처리 로직

실행 추적성 및 재현성 확보

다양한 과학 도메인 범용성

System Architecture

Hybrid Planning & Execution

SciDataCopilot은 단순히 코드를 생성하는 것을 넘어, Tool Lake와 Knowledge Lake를 결합한 하이브리드 계획 수립 방식을 사용합니다.

LLM이 생성한 파이썬 코드는 Execute-Repair Loop를 통해 오류 발생 시 스스로 디버깅하고 수정하여, 최종적으로 '깨끗한' 데이터를 도출합니다.

  • Data Health Scoring (Intrinsic/Utility)
  • Traceable Artifact Registry
  • Domain-tuned Prompts (EEG, UniProt, Polar)
# Intent: Clean enzyme dataset
parsing_agent.plan()
> Step 1: Query UniProt API
> Step 2: Filter non-catalytic seq
> Step 3: Align cross-modal metadata
processing_agent.execute(steps)
> Execution Success. 0 errors.
integration_agent.score()
> Health Score: 0.98/1.0

The Road to AGI for Science

🌊

Modality Expansion

실시간 스트리밍 실험 데이터 및 시뮬레이션 출력값 지원 확대

🤝

Human-AI Collaboration

Human-in-the-loop 최적화 및 감사 가능성(Auditability) 증대

🔄

Closed-loop Discovery

가설 수립부터 검증까지 이어지는 전 과정의 자동화 교두보

Empowering the Future of Discovery

SciDataCopilot은 오픈소스화를 통해 전 세계 과학 커뮤니티의 도구와 지식을 축적하며, 범용 과학 데이터 코파일럿의 표준을 만들어가고 있습니다.