An Introduction to NVIDIA Cosmos World Foundational Models

Abstract

NVIDIA Cosmos is transforming how robots and autonomous vehicles learn, accelerating physics-aware synthetic video generation with world foundation models.

Join Ming-Yu, NVIDIA’s VP of Generative AI Research, to see how Cosmos is democratizing physical AI development—giving developers open models and tools to build custom world models faster than ever.

Speaker: Ming-Yu Liu, VP Generative AI Research, NVIDIA

NVIDIA GTC 2025 Session S72431.

NVIDIA Cosmos 세미나 주요 내용

NVIDIA Cosmos 세미나는 물리적 AI 구축자를 위한 새로운 파운데이션 모델 플랫폼을 소개하는 것을 목표로 합니다. 주요 핵심 내용은 다음과 같습니다.

1. 물리적 AI 개발의 어려움과 디지털 트윈의 중요성:

물리적 AI는 실제 세계와 상호 작용하며 손상을 일으킬 수 있어 신중한 접근이 필요합니다.
배포 전에 물리적 AI를 디지털 환경에서 충분히 훈련하는 것이 중요합니다.
물리적 AI 개발에는 로봇의 디지털 트윈과 로봇을 제어하는 정책 모델이라는 두 가지 핵심 요소가 필요합니다.

2. Cosmos World Foundation Model 플랫폼:

물리적 AI를 위한 고품질 세계 시뮬레이터 구축을 지원하는 플랫폼입니다.
개발 비용을 절감하고 실제 환경과의 상호 작용 위험 없이 AI를 훈련할 수 있도록 가상 환경을 제공합니다.
플랫폼의 주요 구성 요소는 다음과 같습니다.
- 사전 훈련된 Cosmos World Foundation Models: 자율 주행, 인간-객체 상호 작용 등 다양한 대규모 오픈 도메인 비디오로 훈련된 범용 모델입니다.
- 사후 훈련 스크립트: 특정 물리적 AI의 센서 설정(카메라 개수, LIDAR 등)에 맞춰 사전 훈련된 모델을 미세 조정하는 스크립트입니다.
- 비디오 데이터 큐레이션 파이프라인: 대규모 비디오 데이터 처리를 가속화하고 고품질 훈련 데이터를 구축하는 데 도움이 되는 오픈 소스 파이프라인 및 라이브러리입니다. 불필요한 프레임 제거, 카테고리 분류, 비디오 설명 생성, 중복 제거, 샤딩 등의 기능을 제공합니다.

3. Cosmos World Foundation Models의 종류:

Cosmos Predict: 현재 관찰을 기반으로 미래를 예측하는 세계 시뮬레이터 (World Model) 입니다. 수동 평가, 가상 환경 테스트, 정책 모델 사전 훈련, 합성 데이터 생성 등에 활용될 수 있습니다. 확산 기반 비디오 생성 모델을 사용하며, 텍스트 프롬프트, 카메라 궤적, 다중 카메라 뷰 등을 조건으로 미래 비디오를 생성할 수 있습니다.
Cosmos Transfer: 합성 도메인(Omniverse 등)의 비디오 및 다양한 모달리티(깊이, 분할 등)를 실제 세계와 유사한 비디오로 매핑하는 조건부 세계 생성기입니다. ControlNet 아키텍처를 활용하여 다양한 조건부 입력을 처리하며, 사용자 정의 가중치 조정을 통해 특정 영역의 변화를 제어할 수 있습니다.
Cosmos Reason: 물리적 AI에 특화된 추론 모델입니다. Olympia나 코딩보다는 물리적 세계에서의 로봇 생존에 필요한 물리적 상식 (공간, 시간, 기본 물리학) 및 구체화된 추론 (감각 입력 처리, 행동 효과 예측, 물리적 제약 준수, 상호 작용 학습) 능력을 강조합니다. 검증 가능한 보상 및 GPO 알고리즘을 사용하여 훈련하며, 비디오 순방향/역방향 판단, 젤 퍼즐 해결, 미래 행동 예측 등의 작업을 수행할 수 있습니다.

4. AI at the Edge (AIAE) 전략:

대규모 파운데이션 모델 구축을 위한 DJX GPU 클러스터를 활용합니다.
Media DIG 기반의 Media Cosmos와 결합하여 3D 전환 및 사실적인 렌더링을 제공하는 강력한 시뮬레이터를 구축합니다.
구축된 모델은 Media HX와 같은 에지 장치에서 작동하도록 최적화될 수 있습니다.

5. 오픈 소스:

Cosmos 플랫폼의 핵심 구성 요소 (데이터 큐레이션 파이프라인, Cosmos Predict One 체크포인트, Cosmos Transfer One, Cosmos Reason One (향후 공개 예정), 네이티브 Python 훈련 스크립트)를 오픈 소스로 공개하여 개발자들이 쉽게 접근하고 활용할 수 있도록 지원합니다.

6. 지속적인 개발:

NVIDIA는 Cosmos Predict, Transfer, Reason 모델의 후속 버전을 지속적으로 개발하여 성능과 기능을 향상시킬 계획입니다.
합성 데이터 생성과 추론 능력의 상호 보완적인 활용을 통해 비디오 품질 향상 및 모델 성능 개선을 목표로 합니다.

요약하자면, NVIDIA Cosmos는 물리적 AI 개발자들이 실제 환경에서의 위험 부담과 비용을 줄이면서 고성능의 물리적 AI 시스템을 구축할 수 있도록 지원하는 포괄적인 플랫폼입니다. 핵심은 현실과 유사한 가상 환경을 제공하고, 다양한 센서와 작업에 맞게 모델을 사용자 정의할 수 있도록 하며, 물리적 세계에 대한 깊이 있는 이해와 추론 능력을 AI에 부여하는 데 있습니다.

네, 소개 감사합니다. 그리고 이 세션에 와주셔서 감사합니다. 여러분 모두를 위해 구축하고 있는 Cosmos Foundation Model 플랫폼을 소개하겠습니다. 우리의 목표는 물리적 AI 구축자입니다. 물리적 AI는 AI가 컴퓨터 안에만 존재할 수 없고, 세상과 상호 작용하기 위해 무언가를 작동시켜야 하며, 세상과 상호 작용할 때 손상을 일으킬 수 있기 때문에 어렵습니다. 우리는 조숙한 AI가 돌아다니는 것은 무책임하다고 생각하며, 여러분의 주머니에도 좋지 않습니다. 우리는 더 똑똑한 일을 해야 합니다. 우리는 배포 전에 물리적 AI를 충분히 높은 수준으로 디지털 방식으로 먼저 훈련해야 한다고 믿습니다. 우리는 물리적 AI에는 두 가지 중요한 부분이 있다고 믿습니다. 하나는 로봇의 디지털 트윈이고, 다른 하나는 모터를 작동시키기 위해 로봇에서 실행되는 정책 모델입니다. 일반 기조 연설에서 Media는 휴머노이드 로봇에 적합한 수동 모델인 좋은 N1을 방금 발표했습니다. 또한 세상의 디지털 트윈인 또 다른 AI도 필요합니다. 이 모델은 세계 시뮬레이터입니다. 이 세계 시뮬레이터를 사용하면 물리적 AI가 실제 세계와 상호 작용할 필요가 없으며, 이 세계 시뮬레이터와 상호 작용하여 개발 비용을 낮출 수 있습니다. 여기서 Cosmos World Foundation Model로서 우리는 여러분 모두가 물리적 AI를 위한 고품질 세계 시뮬레이터를 구축할 수 있도록 지원하고자 합니다. 이 Cosmos World Foundation Model 플랫폼에는 세 가지 주요 사항이 포함되어 있습니다.

사전 훈련된 Cosmos World Foundation Models: 이 모델은 자율 주행 자동차에서 인간-객체 상호 작용에 이르기까지 모든 종류의 콘텐츠가 포함된 대규모 개방 도메인 비디오로 훈련되어 모델이 제너럴리스트이고 많은 것을 알 수 있도록 합니다.
사후 훈련 스크립트: 이는 다운스트림 애플리케이션을 위해 사전 훈련된 Cosmos Foundation Model을 미세 조정하기 위한 것입니다. 각 물리적 AI는 서로 다른 센서 설정을 가지고 있습니다. 일부 물리적 AI는 두 개의 카메라를, 일부는 여섯 개의 카메라를, 일부는 LIDAR 센서도 가지고 있습니다. 서로 다른 물리적 AI가 인식하는 세계는 다르며, 우리는 이러한 사용자 정의가 필요하다고 믿습니다. 우리는 여러분을 돕고 싶으므로, 사전 훈련된 Cosmos Foundation Model을 다운스트림 애플리케이션에 사용하는 데 도움이 되는 이 사후 훈련 스크립트를 제공할 것입니다. 자율 주행 자동차, 로봇 팔, 로봇 개 또는 휴머노이드 로봇이 될 수 있습니다.
비디오 데이터 큐레이션 파이프라인: 비디오는 매우 밀도가 높고 많은 픽셀과 많은 토큰을 가지고 있습니다. 고품질 모델을 구축하려면 사후 훈련에도 엄청난 양의 비디오가 필요합니다. 이러한 비디오를 처리하는 것은 어렵고, 우리는 이 Cosmos Foundation Model을 통해 비디오 처리를 가속화하는 데 도움이 되는 라이브러리를 구축하는 데 수년을 보냈습니다. 우리는 여러분이 데이터 처리에 활용할 수 있도록 이를 오픈 소스로 공개했습니다.

이것이 제가 가지고 있는 정신적 그림입니다. Cosmos에 사전 훈련된 세계 기초 모델이 있고, 여러분의 애플리케이션에 맞게 조정된 자체 데이터셋을 가지게 될 것입니다. 우리는 사전 훈련된 세계 기초 모델을 다운스트림 애플리케이션을 위해 사전 훈련하거나 사후 훈련할 수 있는 사후 훈련 스크립트를 제공할 것입니다. 자율 주행 자동차, 로봇 팔, 로봇 개 또는 휴머노이드 로봇이 될 수 있습니다.

물리적 구축자를 돕기 위한 AI at the Edge (AIAE) 전략도 언급하고 싶습니다. 대규모 기초 모델을 구축하는 데 도움이 되는 DJX 대규모 데이터 센터 클래스 GPU 클러스터가 있습니다. Media Cosmos는 Media DIG를 기반으로 구축되었으며, Media와 여러분이 결합하면 3D 전환을 제공하는 강력한 시뮬레이터를 갖게 되고, Cosmos는 사실적인 렌더링 및 기타 상상력 기능을 제공합니다. 그런 다음 이러한 모델을 Media HX와 같은 에지 장치에서 작동하도록 증류할 수 있습니다.

마지막 구성 요소인 비디오 데이터 큐레이션 파이프라인부터 시작하겠습니다. 이 모델을 구축하려면 먼저 엄청난 양의 데이터를 큐레이션해야 합니다. 약 2천만 시간 분량의 비디오가 있습니다. 표준 토큰화를 사용하면 9,000조 개의 토큰이 생성됩니다. 정말 많은 토큰입니다. 우리는 이 Cosmos 모델 시퀀스를 구축하기 위해 약 1만 개의 Media H100 GPU를 사용해 왔습니다. 데이터를 큐레이션할 때 물리적 AI 구축자에게 유용한 것을 만들기 위해 매우 신중하게 큐레이션합니다. 대시캠의 엄청난 양의 운전 비디오, 인간-객체 상호 작용 비디오 및 AI에 물리학 작동 방식을 가르치는 자연 역학 비디오가 있습니다. 물론 우리의 학습과 여러분의 피드백을 통해 구성을 반복하고 여러분을 위해 점점 더 나은 사전 훈련된 세계 기초 모델을 갖게 되기를 바랍니다.

다음은 우리의 데이터 큐레이션 파이프라인입니다. 오픈 소스이며 Nemo Curator에서 사용할 수 있습니다. 이것은 단지 그림입니다. 물리적 AI를 훈련하는 데 사용할 1시간 길이의 비디오가 있다고 가정해 보겠습니다. 그 1시간 길이의 비디오는 대부분 매우 지루할 수 있습니다. 가장 먼저 하는 일은 이 1시간 길이의 비디오를 클립으로 나누는 것입니다. 이를 위해서는 트랜스코딩, 비디오 디코딩 및 개별 클립으로 다시 인코딩해야 합니다. 이러한 클립이 있으면 유용하지 않은 부분을 제거하기 위해 필터링해야 합니다. 이를 돕기 위해 여러 필터 세트가 있습니다. 하나는 모션 필터입니다. 비디오에 움직임이 없으면 삭제합니다. 비디오가 제대로 캡처되지 않았거나 매우 어두우면 삭제합니다. 비디오에 텍스트가 많으면 세계의 물리학을 학습하는 데 좋지 않을 수 있으므로 삭제합니다. 그런 다음 모델 훈련에 사용되는 비율을 제어하는 데 도움이 되도록 비디오를 물리적 AI 범주 중 하나로 분류합니다. 이러한 비디오에는 비전 언어 모델을 사용하여 비디오를 설명하므로 나중에 사용할 수 있는 더 제어 가능한 생성을 할 수 있습니다. 이제 엄청난 비디오 데이터베이스가 있으며 많은 비디오가 매우 유사할 것입니다. 동일한 내용을 훈련하는 데 GPU를 낭비하고 싶지 않을 것이므로 의미론적 중복 제거를 수행합니다. 각 비디오를 잠재 벡터로 표현하고 유사성을 기반으로 중복된 것을 삭제합니다. 그런 다음 샤딩을 수행하여 동일한 길이, 종횡비 및 해상도의 비디오를 그룹화합니다. 이는 GPU의 호스트 성능을 극대화하여 처리를 수행하는 데 중요합니다.

이제 Cosmos World Foundation Models에 대해 이야기하겠습니다. 앞서 사전 훈련된 모델, 사후 훈련 스크립트 및 데이터 큐레이션의 세 가지 구성 요소가 있다고 말씀드렸습니다. 세계 기초 모델 측면에서도 세 가지 구성 요소가 있습니다. CS에서 두 달 전에 첫 번째 모델을 출시했으며 현재 Cosmos Predict라고 부릅니다. 현재 관찰을 기반으로 미래를 예측하는 세계 시뮬레이터입니다. 현재 관찰을 기반으로 미래에 어떤 일이 일어날지 생각합니다. 두 번째 모델은 CS에서 일부 결과를 보여주었고, J도 앞서 기조 연설에서 보여주었습니다. Cosmos Transfer라고 부릅니다. 한 도메인에서 다른 도메인으로 전이하기 위한 것입니다. 한 도메인은 장면-실제와 같은 합성 도메인이 될 수 있으며, 이러한 합성 도메인은 Media Omniverse에서 생성할 수 있습니다. 마지막 모델은 Cosmos Reason입니다. 물리적 AI에 맞게 조정된 추론 모델입니다. 질량이나 코딩에서는 Olympia만큼 좋지는 않지만, 로봇이 물리적 세계에서 생존하는 것을 목표로 구축되었습니다. 따라서 수학 문제 해결보다 객체와 상호 작용하는 방법을 아는 데 더 중점을 둡니다. 이 강연에서 이 모든 것에 대해 이야기하겠습니다. 이것이 제가 가지고 있는 정신적 그림입니다. Cosmos Predict, Cosmos Transfer 및 Cosmos Reason의 세 가지 모델이 있습니다.

Cosmos Predict는 현재 상태를 기반으로 미래를 예측하는 세계 시뮬레이터입니다. 세계 모델이라고 부를 수 있습니다. 여기서 x0에서 t까지는 지금까지 관찰한 비디오 프레임이고, s0에서 t까지는 지금까지 본 것을 기반으로 한 텍스트 또는 로봇 제어 신호일 수 있는 제어 신호입니다. 출력은 미래 상태, 즉 다음 프레임입니다. 이는 여러 물리적 AI 애플리케이션에 매우 유용합니다. 하나는 수동 평가입니다. 로봇에 배포하려는 수동 모델을 훈련합니다. AI를 연구하는 사람들은 일반적으로 모델의 다양한 변형과 많은 체크포인트가 있다는 것을 알고 있습니다. 어떤 것을 실제 로봇에 배포할지 모릅니다. 모든 것을 시도해 볼 것이고, 앞서 보여드린 것처럼 일부는 매우 나쁠 수 있습니다. 이 경우 환경을 손상시킬 것입니다. 배포하기 전에 어떻게 효과적으로 좋은 모델을 찾을 수 있을까요? 이 세계 모델을 사용하면 정책이 가상 세계와 상호 작용하도록 하여 수천 개의 체크포인트 중에서 가장 좋은 10개를 찾을 수 있습니다. 실제 로봇을 배포하여 어떻게 되는지 확인하는 데 시간과 에너지를 투자할 수 있습니다. 또한 부엌에서 로봇을 테스트하는 데 도움이 됩니다. 10개의 부엌이 있을 수 있지만, 아마도 로봇이 천 개의 부엌에서 작동하기를 원할 것입니다. 이 세계 시뮬레이터를 사용하면 고객의 부엌에 로봇을 출시하기 전에 로봇이 충분히 좋은지 테스트하기 위해 많은 부엌을 생성할 수 있습니다. 이 세계 모델이 미래를 잘 예측한다면, 그 미래를 향한 행동을 생성하도록 재구성하여 정책 모델 사전 훈련 역할을 할 수 있을 것입니다. 완벽한 세계 시뮬레이터가 있다면, 고전적인 모델 예측 제어를 사용하여 항상 최상의 솔루션을 얻을 수 있습니다. 이 세계 시뮬레이터를 로봇을 훈련하기 위한 합성 데이터 생성기로 사용할 수도 있습니다.

여기서는 우리가 사용하는 세계 기초 모델 중 하나인 확산 기반 비디오 생성기에 대해 이야기하겠습니다. 우리는 현재 프레임의 토큰화가 미래에 의존하지 않는 Coso 토크나이저라는 토크나이저를 사용합니다. 우리는 물리적 세계에서는 미래를 볼 수 없기 때문에 TalkCo를 사용합니다. 그 후 대규모로 표준 확산 변환기 아키텍처를 구축합니다. 우리는 손상된 토큰에서 노이즈를 제거하도록 확산 모델을 훈련하여 결국 비디오 생성기가 되었습니다. 우리는 서로 다른 크기의 두 가지 모델 패밀리를 구축했습니다. 70억 개의 파라미터 테스트 세계 확산 모델로 시작하여 140억 개의 파라미터 모델도 구축했습니다. 우리는 140억 개의 파라미터 모델이 70억 개의 파라미터 모델보다 더 낫다는 것을 발견했습니다. 우리는 테스트 세계로 시작하여 테스트를 비디오로 변환하는 모델을 구축한 다음, 과거 비디오와 일부 명령 또는 텍스트를 기반으로 비디오-세계 모델이 되도록 미세 조정합니다. 우리는 두 버전 모두에 대해 이 작업을 수행했으며 둘 다 출시했습니다. 이것은 매우 간단합니다. 입력으로 시작하여 조건이 되면 물리적 AI를 테스트하기 위한 다양한 환경을 생성하는 데 도움이 될 수 있습니다. 우리는 논문에 여러 예시를 포함했으며, 대부분은 오늘 GitHub 웹사이트에서 업데이트된 기본 Python 훈련 스크립트 형태로 출시되었으므로 가서 확인해 볼 수 있습니다. 카메라 제어가 있습니다. 이 시나리오에서는 텍스트 프롬프트 외에도 카메라 궤적을 입력으로 사용합니다. 이제 가상 환경을 사용하여 카메라를 제어하여 가상 세계를 탐색할 수 있습니다. 다음은 한 가지 예입니다. 앞, 뒤, 왼쪽, 오른쪽으로 이동합니다. 다른 궤적을 사용할 수도 있습니다. 우리가 한 것은 카메라 포즈를 강력하게 추출할 수 있는 비디오 하위 집합을 찾는 것입니다. 일부 운전 시나리오에서는 카메라 포즈를 얻는 데 도움이 되는 다른 양식이 있기 때문에 더 쉽습니다. 우리는 훈련 중에 이 카메라를 조건으로 하여 Cosmos 모델을 미세 조정했습니다. 확산 모델은 카메라 포즈를 활용하여 노이즈를 제거하고 테스트 시간에는 카메라 포즈를 사용하여 확산 모델을 제어하여 가상 세계를 탐색할 수 있습니다. 다음은 또 다른 예입니다. 슈퍼마켓에서 쇼핑합니다. 산업 환경에서는 로봇을 확대하거나 축소할 수 있습니다. 일부 로봇에는 자율 주행 자동차와 같이 여러 대의 카메라가 있습니다. 하나의 뷰를 생성하는 대신 6개 이상의 뷰를 생성할 수 있습니다. 우리는 변환기를 사용하고 있으므로 차이점은 더 많은 토큰과 더 많은 출력 토큰을 갖게 될 것입니다. 뷰는 실제로 서로를 참조합니다. 고려해야 할 다른 사항이 있으며, 이는 게시 후 설명에 공개할 예정입니다. 일반 텍스트 프롬프트 대신 로봇이 수행하기를 원하는 특정 지침을 사용하도록 모델을 미세 조정할 수도 있습니다. 다음은 1x 로봇을 기반으로 한 예입니다. 이제 “책을 선반에 수직으로 놓아 정리하세요”라는 명령을 입력하면 각 지침에 따라 미래 비디오 출력이 제공됩니다. 로봇에 입력하는 제어 신호(액션 기반 제어라고 함)를 사용하여 조건을 지정할 수도 있습니다. 이제 확산 모델에 숫자 세트를 입력하면 미래 상태가 생성됩니다. 여기서는 카메라 제어 신호만 지정하면 로봇이 예상대로 장면을 수행합니다. 이것이 Cosmos Predict입니다.

이제 Cosmos Transfer에 대해 이야기하겠습니다. Cosmos Transfer는 Cosmos Predict에서 비롯됩니다. 조건부 세계 생성기입니다. 제가 가지고 있는 중간 그림은 다음과 같습니다. 두 개의 세계가 있습니다. 첫 번째 세계는 Omniverse라고 가정해 보겠습니다. Omniverse는 깊이, 분할 및 RGB 렌더링과 같은 일부 관찰된 양식을 가질 수 있습니다. Cosmos Transfer를 통해 이러한 비디오와 양식을 실제 세계에서 나올 비디오(두 번째 세계의 시뮬레이션이어야 함)로 매핑할 수 있습니다. 죄송합니다. 오타가 있습니다. 이것은 Cosmos Transfer이며 팀에서 준비한 비디오를 보여드리겠습니다.

네, 이것이 우리가 한 일입니다. 우리는 확산 기반 변환기 기반 확산 모델(DIT 모델)인 Cosmos PD1으로 시작했습니다. 이러한 모델에는 여러 변환기 블록이 있습니다. 분할 맵이나 에지 맵과 같은 특수 제어 입력을 확산 모델이 받도록 하는 인기 있는 접근 방식인 ControlNet에 익숙할 수도 있습니다. 우리가 하는 일은 Cosmos Predict One의 처음 세 개 변환기 블록을 별도의 분기로 복제하는 것입니다. 이 별도의 분기는 분할일 수 있는 조건부 입력을 받고, 변환기 출력 블록 후 선형 투영을 수행하여 기본 분기에 다시 추가합니다. 이러한 방식으로 확산 모델의 노이즈 제거 훈련 목표는 분할과 같은 조건부 정보로 훈련되고, 모델은 해당 분할을 활용하여 노이즈를 제거할 만큼 똑똑합니다. 이는 제어 신호를 최종 출력에 연결하는 경로를 구축합니다. 이것은 일반적인 ControlNet이며, Cosmos Predict One을 위해 우리가 구축한 것은 멀티 ControlNet입니다. 매우 많은 양식이 있으며 모두 유용합니다. 여전히 기본 분기가 있지만 이제 n개의 양식이 있습니다. 에지, 분할, 깊이, 열 및 다양한 것을 가질 수 있습니다. 각 양식에 대해 기본 분기에 다시 추가되기 전에 여기에 W1, W2, WN이 표시됩니다. 이는 사용자가 특정 양식의 중요도를 제어할 수 있도록 하는 가중치 행렬입니다. 이것은 매우 편리합니다. 예를 들어, 일부 시나리오에서는 로봇이나 주요 객체와 같은 전경을 변경하고 싶지 않지만 배경에서 더 많은 변화를 원합니다. 이를 통해 분할을 사용하고 “초점 객체일 때는 강력한 가중치를 여기에 두어야 하지만 배경에서는 마음대로 하세요”라고 말할 수 있습니다. 이것이 얻을 수 있는 제어 중 하나입니다. 전송 모델을 구축하는 방법은 실제로 훈련 문제를 훨씬 쉽게 만들기 위해 개별 컨트롤러를 먼저 별도로 구축하는 것입니다. 훈련 중에 하나의 모델 데이터를 처리할 필요는 없지만 추론 시간에는 이를 융합합니다. 이것이 앞서 언급한 예입니다. 적응형 시공간 다중 모드 제어를 수행할 수 있습니다. 여기서는 특정 활동을 하는 사람이 있고, 객체를 가진 사람인 전경 마스크가 있습니다. 강력한 가중치를 부여하고 모델이 이에 더 많이 활용하도록 요청할 수 있습니다. 입력의 흐릿한 시각적 정보는 색상 힌트를 제공하므로 사람의 피부색이나 옷 색깔을 변경하고 싶지 않으며, 미세한 기하학적 세부 정보를 제공합니다. 배경에는 깊이와 분할을 사용하고 레이아웃, 기하학 및 의미론을 지정할 수 있습니다. 그런 다음 모든 것을 변경할 수 있습니다. 이것이 한 가지 예이고, 이것이 또 다른 예입니다. HD LIDAR를 사용한 자율 주행에 대해 이것을 보았고, 이것은 또 다른 생성 예입니다.

Cosmos Reason One에 대해서는 자세히 설명하지 않겠지만, 매우 간단하게 말하면 추론 모델은 많은 생각을 하는 LM과 같습니다. 답을 내놓기 전에 무엇을 생각하고 있는지 설명하기 위해 사고 과정을 펼칩니다. 작업을 시작하기 전에 종이에 계획을 적고 실수를 발견하여 계획을 수정할 수 있습니다. 저는 이것이 최근 모델이 많은 작업에서 더 나은 이유 중 하나라고 생각하며, 최근 모델이 Olympia MS 및 코딩을 매우 잘 해결한다는 것을 해당 분야에서 보여주었습니다. 저는 물리적 구축자들이 Cosmos Reason One을 구축하도록 돕기 위해 노력하고 있으며, 물리적 AI가 모든 VMS를 해결하거나 코딩을 할 필요는 없다고 믿습니다. 우리는 여러분에게 유용한 것을 구축하고 싶습니다. 우리는 추론 능력을 활용하지만 다른 문제를 해결하거나 AGI를 구축하려고 하지 않습니다. 우리는 물리적 작업에 유용한 것을 구축하고 싶습니다.

물리적 AI에 중요하다고 생각되는 두 가지 추론 기능 세트가 있습니다. 하나는 물리적 상식이고, 다른 하나는 구체화된 추론입니다. 물리적 상식에는 공간, 시간 및 기본적인 물리학에 대한 상식이 포함됩니다. 공간의 경우 어포던스, 환경 관계 등과 같은 범주로 더 나눌 수 있습니다. 시간의 경우 행동 순서, 인과 관계 등이 포함됩니다. 기본적인 물리학에는 속성, 상태, 물체 영속성, 역학, 전자기학, 열역학 및 물리학을 따르지 않는 반물리학이 포함됩니다. 이것들은 물리적 AI 에이전트가 알아야 한다고 믿는 것들입니다. 구체화된 추론도 중요합니다. 우리는 이것들이 복잡한 감각 입력 처리, 행동 효과 예측, 물리적 제약 존중 및 상호 작용으로부터 학습과 같은 물리적 AI가 가져야 할 핵심 기능이라고 믿습니다. 각 항목의 의미에 대한 자세한 분석은 논문에 나와 있습니다. 시간 관계상 자세한 내용은 논문을 참조해야 합니다. 결국 얻게 되는 것은 다중 모드 LM입니다. 입력 비디오가 있으면 비전 인코더를 사용하여 비디오 토큰으로 변환하고 LM을 사용하여 처리합니다. 그런 다음 최종 답변을 제공하기 전에 동기화를 수행합니다. 매우 표준적인 구조입니다. 핵심은 데이터를 어떻게 큐레이션하느냐입니다. 앞서 설명한 구체화된 추론 및 물리적 AI 상식과 같은 데이터가 중요합니다. 데이터를 큐레이션하는 방법에 대한 매우 자세한 설명은 오늘 공개된 논문에 나와 있으므로 살펴보시기 바랍니다.

우리가 하는 일은 사전 훈련된 다중 모드 LM을 가져와 물리적 AI 지도 학습 미세 조정을 수행하는 것입니다. 이는 로봇에게 특정 사실과 물리적 측면에 대해 추론하는 방법을 가르치기 위해 인간의 추론 주석이 있는 큐레이션된 데이터셋을 기반으로 합니다. 우리는 검증 가능한 보상(기본적으로 이진 보상, 1 또는 0)을 사용합니다. 우리는 R1에서 대중화된 그룹 관련 정책 최적화 알고리즘인 GPO 알고리즘을 사용합니다. GPO 알고리즘은 매우 간단합니다. 여러 결과를 함께 그룹화합니다. 여러분이 유일한 좋은 솔루션이라면 많은 가중치를 받게 될 것입니다. 좋은 솔루션이 많으면 괜찮지만, 모든 사람의 솔루션이 정확하면 아마도 매우 중요한 샘플은 아닐 것입니다. 쉬운 경우입니다. 이것은 더 어려운 샘플을 자연스럽게 강조하는 방법입니다.

이것은 우리가 Cosmos Reason을 훈련하는 데 사용한 IO 작업 중 하나입니다. 비디오를 재생하고 AI에게 비디오가 앞으로 재생되는지 뒤로 재생되는지 추론하도록 요청합니다. 여기서 간단한 테스트를 해보겠습니다. 첫 번째 비디오입니다. 앞으로 재생될까요, 뒤로 재생될까요? 네, 두 번째 비디오는 어떻습니까? 더 어렵죠? 첫 번째 비디오는 더 쉬워야 합니다. 우리는 검증 가능한 보상으로 모든 종류의 작업에서 AI를 거의 고문합니다. 인간 주석이 필요하지 않습니다. 비디오를 가져와서 재생하고 모델에게 무슨 일이 일어나고 있는지 파악하도록 도전합니다. 그렇게 하는 방법을 배우려면 모델은 시간 작동 방식에 대한 감각을 개발해야 합니다. 다른 테스트는 젤 퍼즐입니다. 여러 비디오 프레임을 함께 섞고 다음 질문을 추가합니다. “32개의 프레임이 주어졌습니다. 첫 번째 프레임의 시퀀스에서 나온 다른 두 프레임을 찾으십시오.” 모델은 시퀀스를 이해하기 위해 매우 열심히 노력해야 합니다. 여기서 제가 하려는 것은 합성할 수 있는 검증 가능한 보상이 많다는 것을 보여주는 것입니다.

이것이 결과입니다. 여기서 우리는 고객에게 더 최근의 질문을 했습니다. 전반적인 목표는 에이전트가 우유를 컵에 붓는 것입니다. 비디오 속 에이전트는 이 지침을 완료하기 위한 여러 하위 작업 중 하나를 현재 수행하고 있습니다. 비디오 속 에이전트에게 가장 가능성 있는 다음 즉각적인 하위 작업은 무엇입니까? 에이전트가 생각하기 시작하고 결국 “아, 하지만 질문은 즉각적인 다음 행동에 관한 것입니다. 우유를 방금 부었으므로 즉각적인 다음 행동은 아마도 붓는 것을 멈추고 병을 치우는 것일 것입니다.”라고 말합니다.

다음은 또 다른 예입니다. 비디오가 뒤로 재생되고 있습니까, 앞으로 재생되고 있습니까? 에이전트는 매우 흥미로운 말을 했습니다. “용기 안의 분홍색 가루의 양은 증가하는 반면 양동이 안의 양은 감소합니다. 이것은 행동이 되돌려지고 있음을 시사하므로 나쁜 세상입니다.” 이것도 흥미롭습니다. 비디오 속 차량의 행동을 바탕으로 가장 가능성 있는 다음 즉각적인 행동은 무엇입니까? 보시다시피 저는 아마 여기서 좌회전을 하고 싶어할 것이라고 추측합니다. AI가 생각하기 시작하고 어느 시점에서 “옵션 A는 이것을 하고, 옵션 B는 이것을 하고, 옵션 C는 이것을 하지만, ‘아, 이것은 속임수일 수 있습니다. 여기서 다시 확인해 봅시다. 좌회전을 해서는 안 됩니다.’라고 깨닫고 답변을 거부하고 ‘답변은 없음’이라고 말합니다.”

이러한 종류의 기능을 물리적 AI에 부여하고 싶습니다. 좋습니다. 그리고 이 벤치마크 결과입니다. 우리는 물리적 사용 사례에 맞게 조정된 벤치마크 세트를 만들고 Q1, GPT 및 01과 같은 인기 모델과 비교했습니다. 백본인 V로 시작한 다음 Cosmos 최근 훈련 후 작업을 수행합니다. 더 나은 결과를 얻을 수 있으며, IO를 더 수행하면 훨씬 더 나은 결과를 얻을 수 있습니다. 많은 물리적 작업이 있지만 자세히 설명할 시간이 없으므로 논문을 확인하십시오. 중요한 부분으로 넘어가고 싶습니다. 모든 것이 오픈 소스입니다. 우리는 CS에서 Cosmos Predict One의 체크포인트를 공개했습니다. Cosmos Transfer One은 공개되었고, Cosmos Reason One은 서류 작업을 완료한 후에 공개될 예정이며, 이는 시간이 좀 걸릴 것입니다. 기술적인 내용은 논문에 자세히 설명되어 있습니다. 오늘 우리는 두 편의 논문을 발표했습니다. CS에서는 한 편을 발표했으므로 이제 세 편이 있습니다. Cosmos Predict, Cosmos Transfer 및 Cosmos Reason에 대한 것입니다. 우리는 점점 더 좋게 만들기로 결정했으므로 Cosmos Predict 2, Transfer 2, Reason 2를 구축하고 여러분이 우리를 필요로 하지 않을 때까지 계속 구축할 것입니다. 우리는 그 모든 것을 더 좋고 빠르게 만들고 싶습니다. 우리는 실제로 합성 데이터 생성이 추론에 도움이 될 수 있다고 믿으며, 추론이 비디오 개선에 도움이 되는 훌륭한 비평가가 될 수도 있다고 믿습니다. 하나의 실제 비디오와 하나의 가짜 비디오를 가지고 모델에게 왜 가짜 비디오인지 추론하도록 요청할 수 있습니다.

다시 말하지만, 세 가지 주요 구성 요소가 있습니다. 기본 PyTorch만 사용하려는 사람들을 위해 기본 Python 스크립트를 공개하고 있습니다. 여러분의 의견을 들었고, 오늘 공개되었습니다. 우리는 배포 속도를 높이는 데 더 많은 노력을 기울일 것입니다. 감사합니다.

Stop Thinking, Just Do!