Research Report 2026

데이터 필터링의 역설:
정크 데이터의 정보 전환

모델 규모와 컴퓨팅 자원이 임계점을 넘어서면, 전통적인 데이터 정제 공정은 오히려 성능을 저해합니다. '쓰라린 교훈(The Bitter Lesson)'이 데이터 영역으로 확장됩니다.

정보 전환 (Information Conversion)

파괴된 문법 구조(Shuffled documents)에서도 단어 간 연관성 및 unigram 분포를 통해 지식 신호를 흡수하는 대규모 모델의 고유 능력입니다.

행렬 분해 이론 (Matrix Factorization)

모델의 랭크(r)가 유효 신호 수(ρ)보다 클 때, 노이즈와 신호를 완벽히 분리하여 학습할 수 있다는 수리적 근거(Proposition 7.1)를 제시합니다.

Threshold

견고성 임계점: 양이 질을 압도하기 시작하는 지점.

Strategy

가용 예산에 따른 Compute-aware Curation.

Strategies Comparison

다양한 필터링 전략의 메커니즘과 데이터 유지 비율 분석

필터링 방식 주요 메커니즘 유지 비율 파레토 최적
DCLM-Baseline 모델 기반 분류 및 중복 제거 2.1% 초저예산 한정
RefinedWeb 복합 필터를 통한 고품질 추출 13.0% Yes (중간)
Full Pool (CC) 필터링 없는 원시 데이터 100.0% High Compute 유일
Repetition n-gram 및 문단 중복 제거 45.3% 배제 (Non-optimal)

연구 배경 및 동기

모델 성능 향상을 위한 '과학습(Over-training)'이 보편화되면서 수십 조 토큰 규모의 데이터 부족 현상이 심화되었습니다.

기존의 엄격한 필터링은 원시 데이터의 90% 이상을 삭제하는데, 2025년 이후 연구는 "버려지는 데이터 속 숨겨진 가치"에 집중합니다.

필터링의 3대 도전 과제

  • 정보의 가역성 손실: 제거된 데이터의 잠재 신호 복구 불가
  • 인간 편향의 개입: 특정 규칙이 대규모 모델 성능 하락 초래
  • 비용 역전: 정교한 정제 연산 비용이 학습 비용 추월

정보 추출의 3대 기전

Shuffled Documents

문법 파괴 데이터에서도 단어 간 공생(Co-occurrence) 관계를 학습하여 unseen pool 신호를 흡수.

Random Regularization

무작위 문자열 주입이 자연어와의 미묘한 유사성을 통해 모델에 정규화 효과를 제공.

Capacity Advantage

대규모 파라미터는 노이즈를 별도의 파라미터 공간으로 분리하면서도 통계적 신호를 포착할 수 있는 랭크(Rank)를 보유.

2030 Computing Forecast

필터링이 불필요해지는 임계점은 1e+30 FLOPs로 예측됩니다. 이는 2030년 예상 학습 능력인 1e+29 FLOPs의 약 10배 격차로, 하드웨어 가속 추세 상 가시권 내에 있습니다.

1e+30 Target FLOPs
R² > 0.99 Model Confidence

"최선의 필터는 필터를 쓰지 않는 것입니다."

Self-Purification

원시 데이터 내 강력한 다수결 기반의 자기 정제 기전 존재 (Support > Refute by 10x).

Data Acceptance

데이터를 '지우는 기술'에서 '재구조화하는 기술'로 연구 패러다임이 이동 중.

Scaling Continuity

데이터 무어의 법칙을 넘어서는 지속 가능한 스케일링의 핵심 동력.