Accelerating AGI-driven discovery with an agentic framework for Scientific AI-Ready data preparation.
데이터를 단순한 텍스트가 아닌, 특정 과학적 의도와 도메인 제약 조건에 맞게 구조화합니다.
후속 분석 툴이나 머신러닝 모델 학습에 즉시 투입 가능한 포맷으로 변환합니다.
실험값, 서열, 영상 등 서로 다른 모달리티를 정렬하고 유기적으로 결합합니다.
From Raw Chaos to AI-Ready Insight
LangGraph 기반의 워크플로우를 통해 4가지 핵심 에이전트가 협력하여 복잡한 전처리를 수행합니다.
데이터 레이크 검색 및 UniProt 등 외부 DB로부터 미가공 실험 데이터 획득을 담당합니다.
연구 요구사항을 분석하여 처리 단계를 설계하고, 케이스 레이크를 참조해 실행 계획을 검증합니다.
LLM 기반 코드 생성 및 도구 활용을 통해 자가 수정(Self-repair) 루프가 포함된 위상적 실행을 수행합니다.
최종 결과물을 조립하고, 데이터 헬스 스코어링을 통해 품질 및 전략을 종합 분석합니다.
UniProt에서 효소 촉매 데이터셋 21.4만 건을 자동 수집 및 가공하여 연구 효율을 극대화했습니다.
EEG/MEG 데이터의 아티팩트 교정 및 에포크 추출 자동화.
복잡한 시간적 제약 하의 기상 데이터 병합 및 평균화 작업.
이질적 데이터의 파편화 해결
도메인 지식 기반 전처리 로직
실행 추적성 및 재현성 확보
다양한 과학 도메인 범용성
SciDataCopilot은 단순히 코드를 생성하는 것을 넘어, Tool Lake와 Knowledge Lake를 결합한 하이브리드 계획 수립 방식을 사용합니다.
LLM이 생성한 파이썬 코드는 Execute-Repair Loop를 통해 오류 발생 시 스스로 디버깅하고 수정하여, 최종적으로 '깨끗한' 데이터를 도출합니다.
실시간 스트리밍 실험 데이터 및 시뮬레이션 출력값 지원 확대
Human-in-the-loop 최적화 및 감사 가능성(Auditability) 증대
가설 수립부터 검증까지 이어지는 전 과정의 자동화 교두보
SciDataCopilot은 오픈소스화를 통해 전 세계 과학 커뮤니티의 도구와 지식을 축적하며, 범용 과학 데이터 코파일럿의 표준을 만들어가고 있습니다.