Research Report 2026

데이터 필터링의 역설:
정크 데이터의 정보 전환

모델 규모와 컴퓨팅 자원이 임계점을 넘어서면, 전통적인 데이터 정제 공정은 오히려 성능을 저해합니다. '쓰라린 교훈(The Bitter Lesson)'이 데이터 영역으로 확장됩니다.

파괴된 문법 구조(Shuffled documents)에서도 단어 간 연관성 및 unigram 분포를 통해 지식 신호를 흡수하는 대규모 모델의 고유 능력입니다.

모델의 랭크(r)가 유효 신호 수(ρ)보다 클 때, 노이즈와 신호를 완벽히 분리하여 학습할 수 있다는 수리적 근거(Proposition 7.1)를 제시합니다.

견고성 임계점: 양이 질을 압도하기 시작하는 지점.

가용 예산에 따른 Compute-aware Curation.

Reference Frameworks

DCLM Framework Compute-aware Curation FineWeb Space

Strategies Comparison

다양한 필터링 전략의 메커니즘과 데이터 유지 비율 분석

필터링 방식	주요 메커니즘	유지 비율	파레토 최적
DCLM-Baseline	모델 기반 분류 및 중복 제거	2.1%	초저예산 한정
RefinedWeb	복합 필터를 통한 고품질 추출	13.0%	Yes (중간)
Full Pool (CC)	필터링 없는 원시 데이터	100.0%	High Compute 유일
Repetition	n-gram 및 문단 중복 제거	45.3%	배제 (Non-optimal)

모델 성능 향상을 위한 '과학습(Over-training)'이 보편화되면서 수십 조 토큰 규모의 데이터 부족 현상이 심화되었습니다.

기존의 엄격한 필터링은 원시 데이터의 90% 이상을 삭제하는데, 2025년 이후 연구는 "버려지는 데이터 속 숨겨진 가치"에 집중합니다.

문법 파괴 데이터에서도 단어 간 공생(Co-occurrence) 관계를 학습하여 unseen pool 신호를 흡수.

무작위 문자열 주입이 자연어와의 미묘한 유사성을 통해 모델에 정규화 효과를 제공.

대규모 파라미터는 노이즈를 별도의 파라미터 공간으로 분리하면서도 통계적 신호를 포착할 수 있는 랭크(Rank)를 보유.

필터링이 불필요해지는 임계점은 1e+30 FLOPs로 예측됩니다. 이는 2030년 예상 학습 능력인 1e+29 FLOPs의 약 10배 격차로, 하드웨어 가속 추세 상 가시권 내에 있습니다.

1e+30 Target FLOPs

R² > 0.99 Model Confidence

원시 데이터 내 강력한 다수결 기반의 자기 정제 기전 존재 (Support > Refute by 10x).

데이터를 '지우는 기술'에서 '재구조화하는 기술'로 연구 패러다임이 이동 중.

데이터 무어의 법칙을 넘어서는 지속 가능한 스케일링의 핵심 동력.