Academic Whitepaper 2026

LocateAnything:
One Box at a Time

시각적 인식의 속도 혁명: 1D 토큰 스트림에서 2D 아토믹 유닛으로의 패러다임 전환

Executive Abstract

본 보고서는 NVIDIA와 주요 대학 연구진이 발표한 LocateAnything의 기술 사양을 분석합니다. 기존 NTP(Next-Token Prediction) 방식의 구조적 한계를 극복하기 위해 제안된 PBD(Parallel Box Decoding) 기술과 1.38억 개의 방대한 데이터셋을 통한 고정밀 로컬라이제이션 성능 향상을 다룹니다.

01

시각적 그라운딩(Visual Grounding) 개요

시각적 그라운딩은 시각-언어 모델(VLM)이 언어적 쿼리(텍스트)와 시각적 데이터(이미지)를 결합하여 물리적 세계의 객체를 정확하게 찾아내는 핵심 메커니즘입니다.

Concept

단순한 이미지 묘사를 넘어, 텍스트 명령에 따라 객체의 바운딩 박스(x₁, y₁, x₂, y₂) 또는 점 좌표를 생성합니다.

Importance

AI 에이전트가 UI를 탐색하거나 물리적 환경을 조작하는 데 있어 실행의 신뢰성을 결정짓는 필수 관문입니다.

02

기존 NTP 방식의 한계

기존의 VLM은 자연어 생성에 사용되는 NTP 방식을 로컬라이제이션에 적용해왔으나, 이는 심각한 구조적 결함을 야기합니다.

01

추론 병목 현상

좌표를 순차적으로 하나씩 생성함에 따라 추론 단계가 길어지고 지연 시간이 발생합니다.

02

구조적 환각 (Structural Hallucinations)

2D 공간 정보를 1D로 해체하면서 네 개의 좌표가 하나의 기하학적 형태를 이룬다는 연관성을 상실합니다.

Media Insights: Field Demonstrations

실제 산업 현장 및 야생 환경에서의 LocateAnything 성능을 아래 영상에서 확인하십시오.

산업 현장 활용

복잡한 공장 설비의 미세 결함 감지 및 고밀도 송장의 특정 부품 번호를 실시간으로 추출하는 성능을 시연합니다.

자연 환경 인식

위장하거나 가려진 동물을 텍스트 쿼리만으로 정확하게 찾아내며 기하학적 일관성을 유지하는 모습을 보여줍니다.

03

PBD: 아토믹 유닛 혁신

좌표 세트를 개별 숫자가 아닌 하나의 '원자적 단위(Atomic Unit)'로 취급하여 단 한 번의 패스(Single Forward Pass)로 전체 좌표를 예측합니다.

  • 기하학적 응집성 완벽 확보
  • 추론 단계의 획기적 단축
04

하이브리드 추론 모드

상황에 따라 Fast(PBD), Slow(NTP), Hybrid 모드를 유연하게 전환하여 속도와 안정성을 동시에 확보합니다.

Trigger: Prob < 0.7 OR Max-Min Diff > 80
05

LocateAnything-Data 분석

고정밀 로컬라이제이션의 토대는 1.38억 개의 쿼리로 구성된 대규모 데이터셋입니다.

1.38억
Language Queries
1,200만
Images
7.85억
Bounding Boxes

Domain Distribution

Object Detection
66.9%
GUI Grounding
16.5%
Others (REC, OCR)
16.6%

Model Architecture

Model Name LocateAnything-3B
Vision Encoder MoonViT-SO-400M
Language Decoder Qwen2.5-3B-Instruct
Publisher NVIDIA, PolyU, Princeton

Performance vs. Frontiers

12.7 BPS
Throughput (1x H100)

GPT-4o 및 Claude 3.5 Sonnet은 추론 능력은 뛰어나나 순차적 토큰 생성으로 인해 정밀한 픽셀 좌표 출력 시 속도가 느리고 환각 현상에 취약합니다. LocateAnything은 Qwen3-VL 대비 약 10배 빠른 속도를 달성했습니다.

09

Agent Primitive로서의 전략적 역할

LocateAnything은 거대 모델을 대체하는 것이 아니라, 그들의 '눈'이 되어주는 에이전트 기본 요소(Agent Primitive)로 설계되었습니다.

프론티어 모델 (Supervisor)

논리 전개, 코드 평가, 복잡한 의사 결정 담당 (GPT-4o, Claude 3.5)

LocateAnything (Executor)

버튼이나 객체의 정확한 픽셀 좌표 제공 등 '무거운 시각적 작업' 전담

Conclusion

LocateAnything은 '한 번에 하나의 토큰'에서 '한 번에 하나의 박스'로의 전환을 통해 시각적 지능의 새로운 표준을 제시했습니다. 이는 자율 주행 로봇과 차세대 AI 에이전트의 실질적인 구현을 가속화할 것입니다.

References & Citations

  1. LocateAnything-3B: Parallel Box Decoding for Efficient Visual Grounding, arXiv:2605.27365 (2026).
  2. NVIDIA Research, "Eagle VLM Product Family: Architectural Evolution."
  3. Qwen Team, "Qwen2.5-3B Technical Report," Alibaba Cloud (2024).
  4. MoonViT: Multi-modal Vision Transformers for Advanced Perception, MIT License (2025).