Stop Thinking, Just Do!

Sungsoo Kim's Blog

Shaping the Future of AI Innovations

tagsTags

30 April 2025


Article Source


Shaping the Future of AI Innovations

주요 내용: 자율 기계 지능(AMI)을 향한 길

얀 르쿤 교수는 현재 AI 기술의 한계를 지적하며, 미래의 AI는 인간 수준의 지능 증폭을 목표로 해야 한다고 강조했습니다. 그는 현재 LLM(대규모 언어 모델) 중심의 연구 방향에 대한 비판적인 시각을 제시하며, 진정한 지능을 갖춘 시스템 구축을 위한 새로운 접근 방식을 제안했습니다.

현재 AI 기술의 한계 및 비판:

  • LLM은 입력을 출력으로 재현하도록 학습된 시스템으로, 기본적인 의미 이해와 정보 저장 및 회상 능력은 뛰어나지만, 새로운 작업을 빠르게 학습하거나, 물리적 세계를 이해하거나, 상식적인 추론 및 계획 능력을 갖추는 데 한계를 보인다.
  • 자동 회귀 예측 방식은 토큰을 생성할수록 오류 가능성이 기하급수적으로 증가하는 근본적인 결함을 가지고 있다.
  • LLM은 대부분 암기된 내용을 되살리는 수준이며, 이전에 노출되지 않은 문제에 대한 새로운 해결책을 발명하는 능력이 부족하다.
  • 물리적 세계를 이해하는 LLM 기반 AI 시스템이 부재하며, 가정용 로봇이나 자율 주행차와 같은 실제 세계에서의 적용에 어려움을 겪고 있다.
  • 이는 모라벡의 역설의 또 다른 예시로, 인간에게 어려운 작업은 잘 수행하지만, 인간에게 쉬운 지각 및 운동 능력은 현저히 떨어지는 AI의 문제점을 보여준다.
  • 언어 데이터만으로는 인간 수준의 AI에 도달할 수 없으며, 고대역폭 감각 입력(예: 비디오)으로부터 학습하는 것이 필요하다.

미래 AI 시스템을 위한 제안:

  • 미래 AI 시스템은 관찰 및 상호 작용을 통해 세상의 정신 모델을 학습하고, 직관적인 물리학과 같은 지식을 습득하여 미래를 예측할 수 있어야 한다.
  • 지속적인 기억력, 목표 지향적인 행동 계획 능력, 추론 능력을 갖춰야 한다.
  • 훈련 없이 이전에 본 적 없는 문제에 대한 제로샷(zero-shot) 해결 능력이 필수적이다.
  • 설계상 제어 가능하고 안전하며, 부여된 목표만 달성하는 시스템이어야 한다.
  • 추론 방식은 단순한 신경망 순방향 전파가 아닌 최적화를 기반으로 해야 한다. 에너지 기반 모델(Energy-Based Models)을 통해 입력과 제안된 출력 간의 호환성을 측정하고, 에너지를 최소화하는 출력을 탐색하는 방식이 더 강력한 추론 능력을 제공한다.

세계 모델(World Model) 기반의 지능형 시스템 아키텍처:

  • 현재 세계 상태와 예상되는 행동을 입력으로 받아 다음 세계 상태를 예측하는 세계 모델을 중심으로 구축되어야 한다.
  • 인식(Perception) 모듈, 기억(Memory), 세계 모델(World Model), 목표 함수(Objective Functions) 등의 구성 요소를 포함한다.
  • 시스템은 최적화를 통해 목표를 달성하거나 제약 조건을 만족시키는 일련의 행동을 탐색한다.
  • 과학 연구 과정과 유사하게, 개입의 결과를 예측하고 계획하는 능력이 중요하다.

표현 학습(Representation Learning)의 중요성:

  • 비디오의 모든 세부 정보를 예측하는 대신, 비디오의 추상적인 표현을 예측하는 방식이 더 효과적이다.
  • 결합 임베딩 예측 아키텍처(Joint Embedding Predictive Architectures, JPA)는 입력 수준에서의 재구성이 아닌 표현 공간에서 예측을 수행하여 더 나은 성능을 보인다.
  • 생성 모델(Generative Models)은 텍스트나 비디오 생성에는 유용할 수 있지만, 세상의 근본적인 이해를 위해서는 JPA와 같은 판별 모델이 더 적합하다.
  • 자기 지도 학습 방식 중 대조 학습(Contrastive Learning)보다는 증류(Distillation) 또는 정규화(Regularization) 방법이 더 효율적일 수 있다.

결론 및 권장 사항:

  • 인간 수준의 AI에 도달하기 위해서는 LLM 중심의 연구에서 벗어나 물리적 세계를 이해하고 추론 및 계획 능력을 갖춘 차세대 AI 시스템 연구에 집중해야 한다.
  • 생성 모델보다는 JPA 기반의 모델을 연구해야 한다.
  • 확률 모델보다는 에너지 기반 모델을 사용해야 한다.
  • 대조 학습보다는 증류 또는 정규화 방법을 활용해야 한다.
  • 강화 학습의 사용을 최소화하고, 세계에 대한 사전 지식을 활용하는 방향으로 나아가야 한다.
  • 오픈 소스 플랫폼을 통해 학계의 기여를 활성화하고, AI 연구의 발전을 도모해야 한다.
  • 미래에는 추론, 계획, 물리적 세계 이해 능력을 갖춘 AI 시스템을 통해 유용한 로봇을 개발할 수 있을 것으로 기대된다. 하지만 현재 휴머노이드 로봇 개발 회사들이 기대하는 만큼 AI 기술이 성숙하지 않았다는 점을 인지해야 한다.

세부 세미나 내용

소개 및 인공지능의 미래 비전

일요일 아침에 이렇게 많은 분들이 와주셔서 정말 기쁩니다. 다른 나라에서는 일요일 아침에 이런 컨퍼런스가 성공할 수 있을지 모르겠네요. 저는 인공지능(AI)의 미래에 대해 이야기할 것입니다. 미래로 나아가기 위해서는 현재 접근 방식의 한계를 파악해야 합니다. 저는 오른쪽 슬라이드에 아름다운 이중 은하 사진을 넣었는데, 제 뉴저지 뒷마당에서 작은 망원경으로 찍은 M51 은하 사진입니다. 자랑스럽습니다.

AI의 미래에 대해 우리가 원하는 것은 인간과 유사한 지능을 가진 시스템을 구축하는 것입니다. 목적은 인간을 대체하는 것이 아니라 인간 지능을 증폭시키는 것입니다. 인간 지능을 증폭시키려면 가상 인간을 만들어야 합니다. 우리가 가장 익숙한 존재는 다른 인간이기 때문에, 시스템이 다른 인간처럼 세상을 이해하고 인간을 이해할 수 있어야 합니다. 이것이 인간을 강화하는 가장 간단한 방법입니다. 물론 순전히 과학적인 이유도 있습니다. 지능과 학습의 미스터리를 발견하면 우리 자신에 대해 더 많이 이해할 수 있을 것입니다. 이것은 기술적인 문제일 뿐만 아니라 과학적인 질문이며, 실제 제품 요구 사항이기도 합니다.

미래에는 디지털 세계 및 지식과의 대부분의 상호 작용이 AI 보조를 통해 이루어질 것입니다. 우리는 대부분의 디지털 정보 또는 정보 다이어트를 AI 시스템으로부터 얻을 것입니다. 따라서 이러한 시스템은 어느 정도 우리보다 똑똑해야 우리의 작업을 도울 수 있으며, 상호 작용하기 쉬워야 합니다. 전 세계 모든 사람이 접근할 수 있어야 하기 때문입니다. 영화 ‘그녀(Her)’와 같은 공상 과학에서 묘사된 미래 비전처럼, 메타에게도 장기적인 제품 비전이 있습니다. 우리 모두는 스마트 AI 보조가 내장된 스마트 장치를 가지고 다니며 일상생활에서 도움을 받을 것입니다. 실제로 저는 지금 스마트 안경을 쓰고 있으며 메타 AI 보조에게 원하는 질문을 할 수 있습니다. 여러분 앞에서 하지는 않겠지만, 여러분 사진을 찍을 수도 있습니다. (웃음) 그냥 보조에게 사진을 찍으라고 요청할 수도 있었지만, 버튼을 누르는 것이 더 쉽습니다.

메타의 AI 연구 및 차세대 컴퓨팅 플랫폼

메타(MTA)에서는 유용하거나 더 유용하고 일반적으로 더 유용한 기계를 만들기 위해 AI 연구를 진행하고 있습니다. 또한 하드웨어 구성 요소도 중요합니다. AI 시대에 사람들이 사용할 차세대 컴퓨팅 플랫폼은 무엇일까요? 기존의 GUI 기반 인터페이스는 음성 및 다른 유형의 장치를 통한 보다 자연스러운 인터페이스로 대체될 가능성이 높습니다. 메타는 오리온 안경과 같은 데모 시스템을 제작했습니다. 이는 제가 지금 쓰고 있는 안경보다 약간 크고 무거우며 증강 현실 디스플레이를 갖추고 있습니다. 제가 쓰는 안경에는 디스플레이가 없습니다. 이러한 안경은 다양한 기능을 갖추고 있습니다. 기본적으로 사용자의 행동을 관찰하고 “내 차 어디에 뒀지?”, “열쇠를 어디에 뒀는지 잊었어”와 같은 질문을 할 수 있습니다. 식당에서 휴대폰을 테이블에 두고 나오면 “휴대폰을 테이블에 두고 왔어요”라고 알려줍니다. 즉, 세상과의 관계가 바뀌고, 인간 대 인간 상호 작용, 창의성 등 더 인간적인 활동에 집중할 수 있게 될 것입니다. 우리 각자는 똑똑한 사람들의 가상 스태프를 데리고 다니는 것과 같을 것입니다. 마치 정치인들이 자신보다 똑똑한 스태프의 도움 없이 돌아다닐 수 없는 것처럼 말이죠. 우리 주변에는 우리보다 똑똑한 가상 사람들이 항상 함께 할 것입니다.

현재 AI 기술의 한계와 비판

하지만 여기에는 중요한 문제가 있습니다. 현재 AI 기술은 우리가 필요로 하는 수준에 미치지 못합니다. 논란의 여지가 있지만, 기계 학습은 형편없습니다. 현재 기계 학습 시스템의 능력과 새로운 작업을 학습하는 능력은 인간과 동물의 수준에 전혀 미치지 못합니다. 몇 가지 예를 들어 보겠습니다. 우리는 새로운 작업을 매우 빠르게 학습할 수 있는 AI 시스템이 필요합니다. 텍스트와 언어뿐만 아니라 실제 물리적 세계를 이해하고, 어느 정도의 상식과 추론 및 계획 능력을 갖추고, 지속적인 기억력을 가져야 합니다. 또한 이러한 시스템은 우리가 부여하는 목표에 의해 구동되어야 합니다. 대부분의 현재 AI 시스템은 그렇지 않습니다. LLM에게 질문에 답하도록 요청할 수 있지만, LLM이 실제로 질문에 답할 수도 있고 그렇지 않을 수도 있습니다. 목표를 부여하고 그 목표를 달성하기 위한 일련의 행동이나 답변을 계획하도록 할 방법이 없습니다. 따라서 미래의 AI 시스템은 목표 지향적이어야 합니다.

업계의 일부 사람들, 특히 실리콘 밸리의 일부 정보 거품 속에서는 LLM이 엄청나게 강력하다고 주장합니다. 인간 지능에 도달하려면 더 많은 데이터로 확장하고 학습시키기만 하면 결국 인간 수준의 지능에 도달할 것이라고 합니다. 심지어 2년 안에 수학 및 기타 분야에서 박사 수준의 능력을 갖춘 AI 시스템이 나올 것이라고 말하는 사람들도 있습니다. 이는 틀렸습니다. 이는 AI 과학자들이 수십 년 동안 반복적으로 저지른 실수입니다. 1950년대에도 AI의 선구자들은 지능이 문제 해결을 위한 탐색 문제로 환원될 수 있다고 생각했습니다. 문제를 명시하고 수학 함수 형태로 문제 해결 여부를 지정할 수 있다면, 가능한 솔루션 공간 내에서 해결책을 찾는 문제일 뿐이라고 생각했습니다. 뉴웰과 사이먼은 1950년대에 “일반 문제 해결사(General Problem Solver)”라는 프로그램을 개발했습니다. 그들은 문제를 탐색으로 명시할 수 있다면, 가능한 솔루션 공간을 체계적으로 탐색하는 일반 프로그램이 결국 해결책을 찾을 것이라고 말했습니다. 물론 이는 대부분의 흥미로운 문제가 매우 나쁘게 확장되어 기하급수적으로 증가하는 솔루션 집합에 대한 탐색을 필요로 한다는 것을 사람들이 깨닫기 전의 이야기입니다. 따라서 그것은 그다지 일반적이지 않았습니다. 그리고 최초의 학습 기계인 퍼셉트론에서도 같은 실수가 반복되었습니다. 사람들은 이제 학습할 수 있는 기계가 있으므로 10년 안에 지능적이 될 것이라고 주장했습니다. 그리고 다시, 여러 세대에 걸쳐 AI 과학자들은 그러한 주장을 했습니다. 지난 70년 동안 틀렸고, 지금도 여전히 틀렸습니다. 생각보다 훨씬 어렵습니다.

LLM의 작동 방식과 한계

LLM은 입력 내용을 출력으로 재현하도록 학습된 시스템입니다. 좀 이상하게 들릴 수 있지만, 실제로 그렇게 학습됩니다. 단어 시퀀스(정확히는 토큰이지만)를 입력으로 받아들이고, 큰 신경망을 학습시켜 그 시퀀스를 출력으로 재현하도록 합니다. 기본적으로 항등 함수가 되도록 학습시키는 것입니다. 시스템 아키텍처상 시스템이 특정 입력 토큰을 보고 해당 출력 토큰을 계산할 수 없다는 점을 제외하고는 쉽습니다. 시스템은 해당 토큰의 왼쪽에 있는 토큰만 볼 수 있습니다. 이를 인과적 아키텍처라고 합니다. 따라서 시스템이 입력을 출력으로 재현하도록 학습시키면, 아키텍처 때문에 이전 토큰에서 다음 토큰을 예측하도록 학습시키는 것입니다. 이를 GPT 아키텍처라고 합니다. 트랜스포머일 필요는 없습니다. 기본 아이디어는 매우 오래되었습니다. 시스템을 이렇게 학습시킨 후에는 자동 회귀 예측에 사용할 수 있습니다. 즉, 단어 또는 토큰 시퀀스를 보여주고 다음 토큰을 예측하도록 요청합니다. 그런 다음 그 토큰을 입력으로 이동시킵니다. 이제 시스템은 사용자가 제공한 단어와 방금 생성한 단어를 모두 봅니다. 이제 두 번째 단어를 생성하고 입력으로 이동시키고, 세 번째 단어를 생성하고 입력으로 이동시키는 식입니다. 이를 자동 회귀 예측이라고 합니다. 이는 통계 및 신호 처리에서 매우 오래된 개념이며, 새로운 것이 아닙니다.

물론 다른 점은 모델의 크기입니다. 인터넷 덕분에 엄청난 양의 데이터로 학습시킬 수 있습니다. 그리고 다음 토큰을 예측하는 이 간단한 작업을 수행하면 어떤 속성이 나타나는 것 같습니다. 시스템은 어느 정도 기본 의미를 이해해야 하고, 엄청난 양의 정보를 저장하고 적절하게 되살릴 수 있습니다. 이 매우 간단한 개념을 확장하면 얼마나 강력한지 놀랍습니다. 하지만 이는 시스템을 더 확장하기만 하면 자연스럽게 더 지능적이 될 것이라는 확장 신앙을 만듭니다. 저는 그것이 사실이라고 생각하지 않습니다. 사실, 저는 그것이 사실이 아니라고 확신합니다. 확장하면 더 지능적이 되지만, 우리가 원하는 수준은 아닙니다.

자동 회귀 예측이라는 아이디어에는 중요한 문제가 있습니다. 시스템이 토큰을 예측할 때마다 해당 토큰이 사용자가 질문한 것에 대한 좋은 답변 시퀀스의 하위 공간에서 벗어날 확률이 있습니다. 오류 확률이 독립적이라고 가정하면(아마 사실이 아닐 큰 가정입니다), 시스템이 더 많은 토큰을 생성할수록 좋은 답변 하위 공간에 머물 확률은 토큰 수가 증가함에 따라 기하급수적으로 감소합니다. 이는 많은 가정을 필요로 하지만, 자동 회귀 예측의 기본적인 결함입니다. 기본적으로, 다음에 무엇을 말할지 생각하지 않고 말하라고 요청하면, 얼마나 일관성 있게 말할 수 있는지에는 한계가 있습니다. 이는 거의 같은 이야기입니다. 이러한 것들은 다양한 논문에서 어느 정도 경험적으로 연구되었습니다.

인간 수준 지능 도달의 어려움과 필요한 요소

우리는 뭔가 큰 것을 놓치고 있습니다. 우리가 뭔가 정말 큰 것을 놓치고 있다는 또 다른 증거는 LLM이 변호사 시험에 합격하거나 복잡한 방정식이나 적분을 풀거나, 휴가 계획을 제안하는 등의 작업을 수행할 수 있다는 사실입니다. 하지만 무엇보다도 대부분은 암기된 내용을 되살리는 것입니다. LLM이 이전에 노출된 적이 없는 문제에 대한 새로운 해결책을 발명하는 것은 불가능합니다. 인간은 그러한 능력을 가지고 있으며, 많은 동물들도 마찬가지입니다. 그리고 우리는 물리적 세계를 이해하는 LLM 기반 AI 시스템을 가지고 있지 않습니다. 이미지를 해석할 수 있는 시스템은 있지만, 이미지 및 비디오 인코딩은 별도로 학습된 파이프라인입니다. 우리는 컴퓨터 비전 시스템을 만드는 방법을 알고 있으며, 기본적으로 이미지를 토큰으로 변환하여 다른 텍스트와 마찬가지로 처리합니다. 하지만 이 방법의 문제는 물리적 세계를 실제로 잘 이해하는 시스템을 만들지 못한다는 것입니다. 따라서 우리는 가정용 로봇이 없습니다. 심지어 계획 능력과 물리적 세계에 대한 이해 면에서 집고양이만큼도 좋지 않은 로봇도 없습니다. 십대라면 몇 시간의 연습으로 운전을 배울 수 있는 자율 주행차도 없습니다. 자율 주행차를 만들기 위해 엄청난 엔지니어링 노력이 투입되었고, 전문가가 운전하는 수백만 시간의 학습 데이터가 있지만, 위모(Waymo)와 같은 회사가 하는 것처럼 라이다(LiDAR)와 상세한 환경 지도를 사용하지 않는 한, 완전히 신뢰할 수 있는 자율 주행차는 아직 없습니다. 분명히 우리는 뭔가 큰 것을 놓치고 있으며, 문제는 무엇일까요?

이것은 AI의 오래된 문제인 모라벡의 역설(Moravec’s paradox)의 또 다른 예입니다. 왜 인간에게 어려운 체스, 바둑, 포커와 같은 작업을 초인적인 수준으로 수행할 수 있는 컴퓨터가 있는 반면, 물체 조작이나 간단한 행동 계획과 같이 우리가 지능적인 작업이라고 생각하지 않는 간단한 것들에 대해서는 생물의 능력에 훨씬 못 미치는 것일까요? 우리는 정말로 뭔가 큰 것을 놓치고 있습니다. 그리고 문제는 언어와 물리적 세계 사이에는 근본적인 차이가 있다는 것입니다. 언어는 어느 정도 단순합니다. 이는 언어가 인간 능력의 정점이라고 생각하기 때문에 놀라운 일이지만, 사실 언어는 상대적으로 단순합니다. 첸 교수가 방금 언급한 계산이 있습니다. 물론 시스템이 더 많은 데이터로 학습됨에 따라 숫자는 계속 변하고 있습니다. 하지만 라마 4(Llama 4)와 같은 LLM이나 다른 최신 모델을 보면, 일반적으로 인터넷의 공개적으로 사용 가능한 모든 텍스트인 약 30조 개의 토큰으로 학습됩니다. 토큰은 3바이트이므로 대략 10^14바이트입니다. 우리 중 누구라도 이 자료를 읽는 데 40만 년에서 50만 년이 걸릴 것입니다. 즉, 한 번의 생애 동안 불가능합니다.

그런 다음, 시각 피질에 도달하는 정보의 양과 비교해 보겠습니다. 어린아이, 4살짜리 아이는 총 16,000시간 동안 깨어 있었습니다. 시각 피질이나 촉각을 통해 감각 피질을 통해 도달하는 정보의 양은 초당 약 2메가바이트입니다. 눈에서 뇌로 연결되는 시신경 섬유는 200만 개이며, 각 섬유는 초당 약 1바이트를 전달합니다. 산술 계산을 해보면 약 10^14바이트가 됩니다. 따라서 4살짜리 아이의 시각 피질에 도달하는 정보의 양은 오늘날 가장 큰 LLM이 소화하는 정보의 양과 거의 같습니다. 이는 여러 가지를 알려줍니다. 텍스트로 LLM을 학습시켜서는 인간 수준의 AI에 결코 도달할 수 없을 것입니다. 비디오나 다른 양식과 같은 고대역폭 감각 입력에서 시스템을 학습시킬 수 있어야 합니다. 그리고 나쁜 소식은 텍스트에 매우 잘 작동하는 현재 아키텍처가 비디오에는 작동하지 않는다는 것입니다.

아기 및 동물의 학습 방식에서 얻는 영감

어쩌면 어린아이들이 배우는 방식에서 영감을 얻을 수 있을 것입니다. 어린아이라고 할 때는 인간 아이뿐만 아니라 동물 아이도 포함됩니다. 동물도 생후 처음 몇 시간, 며칠, 몇 주, 몇 달 동안 세상이 어떻게 작동하는지 배우는 유사한 과정을 거칩니다. 인간 아기는 세상에 대한 매우 기본적인 것들, 예를 들어 세상이 3차원이라는 것, 세상에는 독립적으로 움직일 수 있는 물체가 있고, 다른 물체 뒤에 숨겨져 있어 보이지 않더라도 여전히 존재한다는 것(대상 영속성이라고 함)을 배우는 데 몇 달이 걸립니다. 이는 우리가 태어날 때부터 가지고 있는 것이 아니라 생후 2개월 정도에 배우는 것입니다. 인간에게서 정확히 측정하기는 매우 어렵지만, 동물에게서는 대상 영속성을 실제로 알고 있는지 여부를 측정하는 것이 조금 더 쉽고, 종에 따라 다릅니다.

아직 말을 하지 못하는 아이들도 기본적인 물체 범주(예: 개와 고양이)에 대해 알고 있습니다. 개와 고양이도 특정 물체 범주에 대해 자발적으로 알고 있으며, 이름을 붙일 필요가 없습니다. 그리고 지지되지 않는 물체는 중력 때문에 떨어진다는 것과 같은 직관적인 물리학에 대한 기본적인 개념을 배우는 데 인간은 9개월이 걸립니다. 대부분의 동물 종에서는 훨씬 빠르지만, 인간에게는 9개월입니다. 여기 아래 그림에 플랫폼 위에 놓인 작은 자동차가 있고, 그 작은 자동차를 플랫폼에서 밀어 떨어뜨리면 공중에 떠 있는 것처럼 보입니다. 6개월 된 아기는 놀라지 않지만, 10개월 된 아기는 매우 놀랄 것입니다. 왜냐하면 10개월 된 아기는 물체가 떨어져야 한다는 것을 배웠기 때문입니다. 따라서 10개월 된 아기는 아마도 작은 소녀처럼 보일 것입니다. 그리고 이것이 심리학자들이 아기가 세상의 특정 속성을 배웠는지 여부를 측정하는 방법입니다. 즉, 놀라움의 정도, 즉 아이가 상황을 얼마나 오랫동안 응시하는지를 측정하는 것입니다.

미래 AI 시스템을 위한 제안 사항

그렇다면 기계가 아기처럼 배우도록 어떻게 해야 할까요? 사실, 이는 미래 AI 시스템을 위한 일련의 테마를 제시할 수 있습니다. 즉, 무엇을 할 수 있어야 할까요? 그들은 관찰, 아마도 상호 작용을 통해 우리가 하는 방식으로 세상의 정신 모델을 실제로 배워야 합니다. 그리고 직관적인 물리학과 같은 것들, 예를 들어 세상에서 앞으로 무슨 일이 일어날지 예측하는 방법, 이를 가능하게 하는 정신 모델을 배우는 방법 등을 배워야 합니다.

지속적인 기억력을 가진 시스템, 특정 목표를 달성하기 위해 복잡한 행동 시퀀스를 계획할 수 있는 시스템, 그리고 추론할 수 있는 시스템이 필요합니다. 추론과 계획은 실제로 같은 것입니다. 그리고 훈련 없이 이전에 본 적 없는 문제에 대한 새로운 해결책을 발명할 수 있어야 합니다. 이를 제로샷이라고 합니다. 우리는 이러한 능력을 가지고 있으며, 많은 동물들도 새로운 상황에 대처하고, 추론 및 계획 능력과 정신 모델을 사용하여 훈련받지 않은 새로운 상황을 처리할 수 있습니다. 오늘날 이러한 능력을 가진 AI 시스템은 없습니다. 그리고 마지막으로, 설계상 제어 가능하고 안전한 시스템, 즉 우리가 부여한 목표만 달성하고 다른 것은 하지 않는 시스템이 필요합니다. 다시 말하지만, 오늘날의 LLM은 그렇지 않습니다.

미래 AI 시스템이 갖춰야 할 특성

이제 AI 시스템이 이러한 조건을 충족하려면 갖춰야 할 여러 가지 특성을 살펴보겠습니다. 첫 번째는 어떤 유형의 추론을 할 수 있어야 하는가입니다. 추론은 시스템이 출력을 계산하는 과정입니다. 학습 과정이 아닙니다. 시스템이 훈련되었다고 가정하고, 원하는 출력을 어떻게 계산하는가입니다. 신경망에 의해 대중화되었지만 다른 모델도 있는 한 가지 모델은 시스템이 입력을 받아들이고, 여러 계층의 신경망을 통해 신호를 전파한 다음 출력을 생성하는 방식입니다. 그 출력이 답입니다. LLM은 이러한 방식으로 작동합니다. 프롬프트를 입력하고 트랜스포머의 여러 계층을 실행하면 하나의 토큰이 생성됩니다. 단일 토큰 계산에 들어가는 계산량은 고정되어 있습니다. 이는 발생하는 계산 유형의 복잡성을 제한합니다. 토큰당 고정된 계산량이 있습니다. 물론 LLM에서는 LLM이 더 많은 토큰을 생성하도록 유도하여 이를 약간 조절할 수 있습니다. 따라서 시스템은 복잡한 질문에 더 많은 계산을 할당합니다. 이를 사고의 사슬(Chain of Thoughts)이라고 하지만, 일종의 임시변통이며, 진정한 의미에서 추론을 처리하는 방법은 아닙니다. 더 나은 추론 방법은 최적화를 이용하는 것입니다. 이제 모델은 신호가 전파되는 신경망이 아니라 복잡한 기계입니다. 신경망과 다층 시스템을 포함할 수 있지만, 실제로 하는 일은 스칼라 값, 즉 단일 숫자를 계산하는 것입니다. 이 숫자는 입력과 제안된 출력이 얼마나 호환되는지 또는 호환되지 않는지를 측정합니다. 예를 들어 코끼리 이미지를 보여주고 제안된 출력이 코끼리를 나타내는 레이블이라면 시스템은 낮은 출력, 예를 들어 0을 생성합니다. 제안하는 범주가 테이블과 같은 다른 것이라면 시스템은 큰 숫자를 제공합니다. 이를 에너지 기반 모델이라고 합니다. 기본적으로 입력과 제안된 출력 간의 비호환성 정도를 측정하는 시스템입니다. 따라서 추론 과정은 이제 해당 에너지를 최소화하는 출력 공간을 탐색하는 것으로 구성됩니다. 이는 본질적으로 더 강력한 추론 과정입니다. 모든 계산 문제는 이러한 유형의 최적화 문제로 축소될 수 있지만, 모든 계산 문제가 신경망의 고정된 수의 계층을 통한 전파로 축소될 수 있는 것은 아닙니다. 따라서 본질적으로 더 강력하며, AI 시스템이 최적화의 영향을 받아 구현해야 할 사항입니다.

사실 이것은 전혀 새로운 개념이 아닙니다. 뉴웰과 사이먼을 언급했지만, 고전적인 AI도 솔루션 공간에서 해결책을 찾는 것, 그래프 모델에서의 확률적 추론은 모두 최적화에 관한 것입니다. 알 수 없는 변수 집합의 값을 찾는 것인데, 이는 일부 가능도 함수에 따라 알고 있는 변수 집합과 가장 호환되는 값입니다. 이를 에너지(음의 에너지)로 생각할 수 있습니다. 로봇의 동작 계획과 같은 컴퓨터 과학의 많은 문제는 로봇이 원하는 작업을 수행하도록(예: 물건을 잡는 것) 일련의 제어를 탐색한다는 아이디어를 기반으로 합니다. 따라서 이는 매우 일반적인 개념이지만, 현대 AI의 맥락에서는 약간 잊혀졌습니다.

이러한 유형의 의도적인 답변 탐색은 인간 인지 맥락에서 시스템 2라고 불립니다. 우리는 두 가지 방식으로 행동합니다. 인간 행동은 일종의 두 가지 모드로 볼 수 있습니다. 매우 익숙한 작업을 수행할 때는 생각할 필요가 없습니다. 일종의 잠재의식적이며, 실제로 의식하지 않고도 수행할 수 있습니다. 예를 들어 숙련된 운전자는 생각 없이 운전할 수 있으며, 동시에 다른 일을 하거나 다른 사람과 이야기하거나 라디오를 들을 수 있습니다. 자동화된 것입니다. 하지만 처음 운전할 때는 상황에 완전히 집중하고 마음의 모든 힘을 사용하여 무엇을 해야 할지 파악했습니다. 그리고 우리가 매일 겪는 대부분의 상황, 우리 중 많은 사람이 현재 종사하거나 학생이라면 앞으로 종사할 대부분의 직업은 항상 의식적인 마음과 의도적인 추론을 필요로 합니다. 이를 시스템 2라고 합니다. 느리고 더 많은 에너지(정신 에너지뿐만 아니라 실제 에너지)를 필요로 하지만, 더 강력합니다. 이전에 접해보지 못한 새로운 문제를 해결하고 새로운 해결책을 찾을 수 있습니다. LLM은 현재 이러한 능력이 없거나 매우 제한적인 방식으로만 수행할 수 있습니다.

따라서 이는 이러한 시스템의 작동 방식을 설명하는 일종의 프레임워크(에너지 기반 모델이라고 함)를 제시합니다. 두 변수(예: X와 Y) 간의 종속성을 모델링하려는 경우를 생각해 보겠습니다. 이 작은 다이어그램에서 스칼라이지만, 원하는 만큼 복잡할 수 있으며, 이산적이거나 연속적일 수 있습니다. X는 관찰 결과이고, Y는 제안된 출력 공간일 수 있습니다. 두 변수 간의 종속성은 X와 Y 쌍이 호환되는 곳에서는 낮은 값을, 호환되지 않는 곳에서는 더 큰 값을 갖는 에너지 함수로 나타낼 수 있습니다. 이는 X에서 Y를 계산하는 함수를 나타내는 것보다 더 강력합니다. 이를 X와 Y 간의 종속성을 포착하는 암시적 함수로 생각할 수 있습니다. 하지만 이 방법의 장점은 단일 X와 호환되는 여러 Y가 있을 수 있다는 것입니다. 이는 특정 작업을 수행할 수 있는 여러 가지 방법이 있을 수 있다는 것과 같은 이유입니다. 단일 작업을 계산하는 시스템은 특정 제안된 작업이 원하는 작업을 수행하는 데 호환되는지 여부를 알려주는 시스템만큼 강력하지 않습니다. 해당 작업을 해결하는 여러 가지 방법, 즉 입력과 호환되는 여러 가지 답변이 있을 수 있기 때문입니다.

여기 검은 점을 학습 데이터를 나타내는 것으로 생각하고, 다른 색상의 선은 에너지 함수의 다른 수준 집합을 나타내는 것으로 생각해 보세요. 그렇다면 입력과 출력 간의 호환성을 측정하는 이 에너지 함수를 일종의 지능형 시스템 맥락에서 어떻게 사용할까요? 아마도 다음과 같은 유형의 아키텍처를 가져야 할 것입니다. 이는 세계 모델(world model)이라는 개념을 중심으로 구축됩니다. 세계 모델이란 무엇일까요? 세계 모델은 현재 세계 상태와 아마도 사용자가 상상하는 제안된 행동이 주어지면, 그 행동으로 인해 발생하는 세계의 결과 상태를 예측하는 것입니다.

즉, 세계의 상태와 사용자가 상상하는 행동이 주어지면, 다음 세계 상태를 예측할 수 있을까요? 예를 들어 이 물건을 집어 들고 손을 놓겠다고 말하면, 물건이 떨어질 것이라고 쉽게 예측할 수 있습니다. 행동에 따른 이러한 정신적 예측 능력은 우리가 계획을 세우고 추론할 수 있게 해줍니다. 일련의 행동의 결과를 상상할 수 있기 때문입니다. 이는 탐색을 통해 특정 결과에 도달하기 위한 일련의 행동을 파악할 수 있다는 것을 의미합니다. 이것이 우리가 계획을 세우는 방식입니다. 사실 이 개념은 1960년대부터 로봇 공학 및 최적 제어 분야에서 매우 오래된 것입니다. 제어하려는 시스템의 모델이 있고, 최적화를 통해 시스템이 특정 목표에 도달하도록 하는 일련의 명령을 파악할 수 있다는 것입니다. 이것이 전 세계의 우주 기관이 우주 정거장과의 랑데부 또는 궤도 진입을 위한 로켓 궤적을 계산하는 방식입니다. 매우 오래된 기술 집합입니다. 하지만 일반적으로 모델은 엔지니어와 과학자가 수동으로 구축합니다. 여기서 우리가 이야기하는 것은 관찰 및 아마도 상호 작용으로부터 모델을 학습하는 것입니다.

여기에는 여러 가지 구성 요소가 있습니다. 현재 상황을 관찰하면, 이는 기본적으로 현재 세계 상태에 대한 표현을 추정하는 인식 모듈로 들어갑니다. 세계의 현재 상황에 대한 모든 세부 정보를 나타내지는 않지만, 모든 작업과 관련이 있을 수 있는 관련 정보를 나타냅니다. 현재 세계의 전체 상태를 인식하지 못할 수도 있으므로, 현재 인식하지 못하는 세계 상태에 대한 우리의 아이디어를 기본적으로 포함하는 메모리의 내용과 결합해야 합니다. 예를 들어 이 건물을 나가는 방법을 모두 알고 있습니다. 문을 통해 들어왔기 때문에 문 위치와 이 방에서 문으로 나가기 위해 어떻게 걸어가야 하는지에 대한 정보가 우리 기억 속 어딘가에 있습니다. 그것은 우리 기억 속에 저장되어 있으며, 우리가 세계에 대해 알고 있는 나머지 모든 것은 우리 기억 속에 있습니다. 따라서 이 메모리의 내용과 현재 인식을 결합하여 세계 모델에 공급합니다. 그런 다음 우리가 취할 수 있는 행동에 대한 가설을 세계 모델에 공급합니다. 세계 모델이 하는 일은 다음에 무슨 일이 일어날지, 다음 세계 상태가 무엇일지 예측하는 것입니다. 이제 예측된 상태를 빨간색 사각형으로 표시된 여러 목표 함수에 공급할 수 있습니다. 이러한 함수는 에너지, 즉 스칼라 출력을 생성하는 암시적 함수이며, 다양한 항이 합산된다는 암시적 아이디어가 있습니다. 따라서 전체 에너지는 모든 빨간색 사각형의 출력의 합입니다. 그 중 하나인 작업 목표는 작업이 얼마나 달성되었는지를 측정합니다. 작업이 달성되면 0 값을 갖고, 달성되지 않으면 더 큰 값을 갖습니다.

그런 다음 일련의 안전 장치 목표가 있을 수 있습니다. 이러한 안전 장치는 비용 함수 또는 제약 조건일 수 있습니다. 이제 문제는 시스템이 초래할 세계 상태의 시퀀스가 누구에게도 해를 끼치지 않도록(예: 안전하고, 어떤 한계 내에 있도록) 보장하는 제약 조건의 최적화가 됩니다. 따라서 시스템은 각 에피소드에서 최적화를 통해 이러한 목표를 최적화하거나 세계 모델의 예측에 따라 제약 조건을 만족시키는 일련의 행동을 탐색합니다. 이것이 작동 방식입니다. 최적화를 통한 추론이며, 이는 계획 및 추론을 수행하는 방법이며, 이 아키텍처는 이를 수행하는 방법을 파악한다면 지능형 시스템을 구축하는 방법입니다.

이제 세계 모델은 일반적으로 적용 가능합니다. 그 전에 한 가지 말하고 싶은 것은, 어떤 개입의 결과를 예측할 수 있다는 아이디어는 과학 과정에도 매우 중요하다는 것입니다. 과학에서 모델을 구축할 때, 예를 들어 물리 시스템의 관련 변수와 같이 세계 상태에 대한 추상적인 표현이 있습니다. 그리고 우리가 가진 모델은 일련의 방정식일 수도 있지만, 그것보다 더 복잡할 수도 있습니다. 그런 다음 실험을 상상합니다. 이는 기본적으로 시스템에 가하는 행동 또는 섭동 개입입니다. 그러면 우리의 모델은 결과 예측을 할 수 있어야 하며, 아마도 최적화를 통해 특정 결과를 생성하는 개입을 설계할 수 있을 것입니다. 따라서 이것은 우리가 과학에서 하는 일과 매우 유사합니다. 이것은 단순한 AI 문제가 아니라, 우리가 어떻게 생각하고 세계에 대한 새로운 아이디어를 생각해 내는지에 대한 일종의 모델입니다. 현 시점에서는 매우 개념적인 모델이며, 이러한 종류의 실험을 사용하여 가설이 참인지 거짓인지 확인할 수 있습니다.

이제 행동이 주어졌을 때 다음 세계 상태를 예측할 수 있는 세계 모델이 있다면, 이를 시간이 지남에 따라 반복적으로 사용할 수 있으며, 단일 행동뿐만 아니라 일련의 행동의 결과를 상상할 수 있습니다. 세계 모델을 반복적으로 자동 회귀적으로 적용하여 말이죠. 따라서 세계 모델을 여러 단계로 실행하고, 안전 장치 비용에 공급한 다음, 최적화 알고리즘을 사용하여 최적화할 행동 시퀀스를 파악할 수 있습니다. 모든 모듈이 아마도 신경망이므로 미분 가능할 것이고, 아마도 경사 기반 방법을 사용하여 계획을 세울 수 있을 것입니다. 하지만 더 정교한 방법도 사용해야 할 수도 있습니다. 이제 실제로 세계는 완전히 결정론적인 것은 아니므로, 세계에 대한 많은 미지수가 있는 행동 시퀀스를 실제로 계획하기 어려울 수 있습니다. 따라서 미지수를 처리하는 방법은, 결정론적 함수인 신경망을 분포에서 추출한 추가 입력 변수(잠재 변수라고 함)를 공급하여 비결정론적 함수로 바꿀 수 있다는 것입니다. 이는 $$ P(Y X) $$를 쓰는 것보다 확률적 예측을 표현하는 훨씬 더 나은 방법입니다. 실제로 계산하는 것은 결정론적 함수이지만, 잠재 변수를 인수로 갖기 때문에 이제 확률론적이 됩니다. 물론 이러한 잠재 변수는 여러 집합에 걸쳐 다양할 수 있으므로, 불확실성 하에서의 계획 문제는 약간 복잡할 수 있지만, 기본적인 메커니즘은 앞서 설명한 것과 크게 다르지 않습니다.

진정으로 지능적인 시스템을 구축하려면, 대부분의 동물과 확실히 인간처럼 계층적 계획을 수행할 수 있도록 해야 합니다. 예를 들어 뉴욕 대학교(NYU)의 제 사무실에 앉아 있고 파리에 가고 싶다고 가정해 보겠습니다. 지금은 한낮이고, 다음 날 아침에 파리에 갈 수 있다는 것을 알고 있습니다. 하지만 먼저 공항에 가서 비행기를 타야 합니다. 저녁 비행기가 출발하기 전에 공항에 가서 비행기를 타야 합니다. 인간의 경우 기본적으로 밀리초 단위의 근육 제어인 기본 행동으로 파리 여행 전체를 계획할 수는 없습니다. 정보가 없을 뿐만 아니라, 엄청나게 복잡한 계획 문제가 될 것입니다. 따라서 우리는 단일 수준에서 계획하지 않고 계층적으로 계획합니다. 파리에 가는 것이 목표(일종의 목적)입니다. 이를 하위 목표로 분해합니다. 첫 번째 하위 목표는 공항에 가는 것입니다. 이제 하위 목표가 있습니다. 공항에 어떻게 갈까요? 표현 계층 구조에서 한 단계 내려가서 첫 번째 부분에 대해 좀 더 자세히 설명합니다. 길을 내려가서 택시를 잡아야 합니다(뉴욕에서는 가능합니다). 이제 또 다른 하위 목표가 있습니다. 길을 가는 것입니다. 엘리베이터를 타고 버튼을 누르고 엘리베이터를 타고 내려와 건물 밖으로 걸어 나가야 합니다. 엘리베이터에 어떻게 갈까요? 의자에서 일어나 가방을 들고 문을 열고 뒤로 닫고 모든 장애물을 피하면서 걸어가야 합니다. 모든 장애물이 어디에 있을지 미리 알 수 없기 때문에 미리 계획할 수 없을 수도 있습니다. 사람들이 뛰어다닐 것입니다. 그렇다면 의자에서 어떻게 일어날까요? 이제 언어로 설명하는 것이 기본적으로 불가능한 수준에 도달합니다. 특정 수준 아래로 내려가서 언어로 사물을 설명할 수 없습니다. 언어는 특정 수준의 추상화 아래에서는 완전히 부적절하고 불충분해집니다. 이는 다시 LLM으로는 이 작업을 수행할 수 없다는 것을 의미합니다. 우리는 물리적 세계를 이해할 수 있을 뿐만 아니라 저수준 행동을 계획하고 계층적으로 수행할 수 있는 시스템을 가져야 합니다. 이 계층적 계획 문제는 완전히 해결되지 않았습니다. AI의 주요 과제라고 생각합니다. 기계 학습 유형의 접근 방식으로 연구하는 사람은 거의 없습니다. 박사 과정을 시작하거나 곧 시작할 예정이거나 새로운 교수로 AI에 영향을 미치고 싶다면 이 문제를 해결하십시오. 이에 대한 좋은 아이디어가 있다면 즉시 채용하겠습니다. 그리고 바로 여기 앉아 있는 파스칼 F도 즉시 채용할 것입니다. 그녀도 같은 문제를 겪고 있습니다. 우리 둘 다 FAIR에서 일하고 있습니다. 그녀는 파리에 있고 저는 뉴욕에 있습니다. 따라서 이는 매우 중요한 문제입니다.

3년 전에 온라인에 올린 논문을 썼습니다. 이는 제가 수년 동안 연구해 온 많은 아이디어를 종합한 것으로, 앞으로 10년 동안 AI 연구가 어떻게 진행될 것이라고 생각하는지에 대한 내용입니다. 그 논문은 3년 전의 것이므로 LLM 열풍 이전에 발표되었습니다. 하지만 변하지 않았습니다. LLM은 이 논문의 기본 전제를 실제로 바꾸지 못했습니다. 제목은 “자율 기계 지능을 향한 길(A Path Towards Autonomous Machine Intelligence)”입니다. arXiv에 있는 것이 아니라 공개 리뷰이므로 댓글을 달 수 있습니다. 그리고 이제 이름을 바꿨습니다. “자율(autonomous)”이라는 단어를 “고급(advanced)”으로 바꿨습니다. “자율”이라는 단어가 사람들을 겁나게 하기 때문입니다. 그래서 FAIR와 NYU의 제 연구실에는 “고급 기계 지능(Advanced Machine Intelligence, AMI)”이라는 프로그램이 있습니다. 실제로 프랑스어로 “친구”를 의미하는 “아미(ami)”라고 발음합니다. 그리고 이것이 대부분의 다른 사람들이 AGI라고 부르는 것 대신 사용하는 단어입니다. 저는 “AGI”라는 용어를 좋아하지 않습니다. AGI의 개념은 인간과 동일한 수준의 지능을 가진 기계이지만, 인간 지능은 실제로 매우 전문화되어 있으므로 이를 일반 지능이라고 부르는 것은 완전히 터무니없는 일입니다. 따라서 AMI입니다.

지난 몇 년 동안 이에 대해 여러 차례 강연을 했습니다. 최신 강연을 보시면 아직 이야기하지 않은 새로운 결과가 있습니다. 그 논문에서 저는 방금 설명한 것과 유사하지만, 약간 더 많은 구성 요소와 이것이 어떻게 구축될 수 있는지에 대한 약간 더 자세한 내용이 포함된 일반적인 아키텍처를 설명했습니다. 이를 인지 아키텍처라고 하며, 세계 모델이라는 아이디어를 중심으로 구축되었습니다. 그리고 이 세계 모델이라는 아이디어는 LLM만으로 인간 수준의 AI에 도달할 수 있다고 믿지 않는 사람들 사이에서 AI 연구 커뮤니티에서 많은 관심을 받고 있습니다.

하지만 이제 스스로에게 던져야 할 큰 질문은 기계가 관찰이나 설계 아키텍처로부터 어떻게 세계 모델을 학습할 수 있을까 하는 것입니다. 과학자나 물리학자에게는 일종의 비유로, 과학자들이 관찰하는 현상의 모델을 어떻게 정교하게 만드는가와 같습니다. 이에 대한 개념은 자기 지도 학습(self-supervised learning)입니다. 자기 지도 학습은 시스템이 주어진 입력 간의 종속성을 포착하도록 훈련하는 일반적인 프레임워크입니다. 단일 입력이 아니라 시퀀스 또는 입력의 여러 부분일 수 있는 입력을 제공하고, 시스템이 해당 입력 집합이 일관성이 있는지, 아니면 일부 부분이 나머지 부분과 실제로 호환되지 않는지 알려주도록 기본적으로 훈련합니다. LLM은 이러한 것의 특별한 경우입니다.

LLM 학습에 대해 앞서 설명한 프로세스의 일반적인 관점은, 예를 들어 단어 또는 토큰 시퀀스를 가져와서 어떤 방식으로든 손상시키거나(예: 일부 단어를 제거하거나 변경) 그런 다음 큰 신경망을 학습시켜 누락된 부분, 즉 누락된 단어를 복구하도록 하는 것입니다. 그리고 이것은 매우 잘 작동합니다. 따라서 LLM은 앞서 말했듯이 이 원리를 기반으로 합니다. 명시적인 마스크 처리를 할 필요가 없도록 인과적 아키텍처를 사용하지만, 기본적으로 시스템이 현재와 미래에 접근할 수 없고 과거만 사용하여 현재를 예측할 수 있도록 하는 암시적 마스크 처리입니다. 그리고 물론 수년 전, 사실 수십 년 전부터 신경 과학에서 나온 매우 오래된 아이디어가 있습니다. 비디오에서 앞으로 일어날 일을 예측하도록 시스템을 훈련할 수 있다면, 이 시스템은 현실의 구조를 이해했을 것이라는 것입니다. 특히 장기적으로 비디오에서 앞으로 일어날 일을 예측할 수 있다면, 이는 현실의 본질을 정말로 포착했다는 의미입니다. 그렇다면 비디오에 대해서도 똑같이 하지 않을까요? 비디오를 가져와서 토큰 등으로 변환한 다음, 큰 신경망을 학습시켜 비디오에서 다음에 무슨 일이 일어날지 어떤 형태로든 예측하도록 하는 것입니다. 저는 이 문제에 대해 15년에서 20년 동안 연구해 왔고, FAIR의 일부 동료들은 지난 10년 동안 연구해 왔지만, 작동하지 않습니다. 비디오에서 일어나는 모든 세부 정보를 예측하는 것은 너무 어렵고, 기본적으로 불가능합니다.

몇 가지 예를 들어 보겠습니다. 매우 짧은 비디오(6프레임)로 신경망을 학습시키는 경우, 4프레임을 제공하고 다음 두 프레임을 예측하도록 요청하면 상단에서 볼 수 있는 종류의 예측을 얻게 됩니다. 4프레임이 있고 마지막 두 프레임이 예측되었는데 흐릿합니다. 왜 흐릿할까요? 신경망이 무슨 일이 일어날지 모르기 때문에 가능한 모든 미래의 평균을 예측하여 흐릿한 이미지가 됩니다. 고속도로에서 자동차의 궤적을 예측하는 것과 같은 다른 상황에 적용하면 아래 패널의 왼쪽에서 두 번째 열에서 볼 수 있는 흐릿한 예측을 얻게 됩니다. 그것들은 매우 단순하고 도식적인 비디오이며, 시스템이 자동차가 가속할지, 감속할지, 방향을 틀지, 차선을 변경할지 여부를 예측할 수 없기 때문에 그러한 흐릿한 예측을 얻게 됩니다. 따라서 평균을 예측합니다. 물론 텍스트처럼 단일 예측을 하지 않고 확률적 예측, 즉 가능한 모든 결과의 분포를 예측하는 것이 자연스러운 경향입니다. 텍스트로는 시퀀스 다음에 오는 단어를 정확히 예측할 수 없지만, 사전의 모든 가능한 단어 또는 토큰에 대한 확률 분포를 생성할 수 있기 때문에 텍스트로는 이 작업을 수행할 수 있습니다. 이를 기계 학습에서 소프트맥스라고 합니다. 하지만 비디오에서는 이 작업을 수행할 수 없습니다. 가능한 모든 비디오 프레임 공간에서 분포를 유용하게 표현하는 방법이 없습니다.

따라서 사람들은 수년 동안 이 문제로 씨름해 왔으며, GAN, 더 최근에는 확산 모델 및 흐름 모델 등에서 약간의 진전이 있었습니다. 이는 고차원 연속 공간에서 분포를 기본적으로 약하게 표현하려는 시도이지만, 여전히 충분하지 않을 뿐만 아니라 필요한 것보다 더 복잡한 문제를 해결하는 것입니다. 따라서 이에 대한 저의 해결책은 비디오의 모든 세부 정보를 예측하려고 하지 말고 비디오의 추상적 표현을 예측하는 것입니다. 예를 들어 이 물체를 이 방향으로 손가락으로 잡고 손가락을 놓겠다고 말하면 물체가 떨어질 것이라는 것을 알 수 있습니다. 둥근 끝이기 때문에 어느 방향으로 떨어질지 예측할 수 없을 것입니다. 아마도 충분한 정보가 없을 것입니다. 제가 정확히 어떻게 손가락을 놓을지 모르기 때문입니다. 따라서 물체가 떨어질 것이라고 말할 수 있는 추상적 표현 수준이 있지만, 어느 방향으로 떨어질지 모르기 때문에 모든 픽셀을 예측할 수는 없습니다. 또 다른 예를 들어 보겠습니다. 이 방의 비디오를 찍고 여기서부터 천천히 패닝하다가 멈추고 시스템에 해당 비디오를 계속하도록 요청하면 시스템은 우리가 회의실에 있고 사람들이 앉아 있으며 회의실은 아마도 유한한 크기를 가지고 있고 오른쪽은 아마도 왼쪽과 비슷할 것이라는 것을 파악할 것입니다. 어느 정도 정보를 예측할 수 있지만, 여러분 각자가 어떻게 생겼는지 예측할 방법은 전혀 없습니다. 정보가 충분하지 않기 때문입니다. 따라서 매우 세밀한 수준에서 이러한 종류의 예측을 하도록 시스템을 훈련시키면 작동할 방법이 없습니다. 예측할 수 없는 것을 예측하는 데 모든 리소스를 낭비하게 될 것이고, 이는 완전히 낭비입니다. 사실 시스템이 많은 것을 학습하지 못하게 합니다. 그리고 예를 들어 이미지 표현을 학습시키기 위해 이미지를 손상시키고 손상된 버전에서 이미지를 재구성하도록 학습시키고, 시스템이 학습한 내부 표현이 이미지의 좋은 표현이기를 바라는 경우, 이는 잘 작동하지 않는다는 많은 경험적 증거가 있습니다.

잘 작동하는 것은 결합 임베딩 아키텍처 또는 더 정확하게는 결합 임베딩 예측 아키텍처(JPA)라고 합니다. 아이디어는 다음과 같습니다. 원래 비디오 또는 입력(무엇이든)을 가져와서 어떤 방식으로든 손상시키거나 변환합니다(예: 미래 또는 후반부를 마스크 처리). 전체 비디오를 재구성하도록 시스템을 훈련시키는 대신, 비디오를 인코더를 통해 실행합니다. 전체 비디오의 표현(sy라고 함)과 부분적으로 마스크 처리, 손상 또는 변환된 비디오의 표현(sx라고 함)을 얻습니다. 그런 다음 시스템을 학습시켜 syx를 예측합니다. 즉, 여전히 예측하도록 시스템을 학습시키지만, 픽셀 공간이 아닌 표현 공간에서 예측합니다. 그리고 다시 말하지만, 이것은 지능적인 존재로서 우리가 항상 수행하는 과정입니다. 예측할 수 있도록 세상의 적절한 표현을 찾는 것입니다. 그리고 이것이 우리가 과학에서 항상 하는 일입니다. 과학의 전체 목적은 예를 들어 물리학에서 시스템 상태의 관련 변수가 무엇인지 파악하여 시스템이 어떻게 진화할지 예측할 수 있도록 하는 것입니다. 예를 들어 목성 행성에 대해 우리가 수집한 모든 정보를 여러분에게 쏟아낼 수 있지만, 100년 후 목성이 어디에 있을지 예측할 수 있습니까라고 묻는다면, 단 6개의 숫자만 필요합니다. 세 개의 위치와 세 개의 속도만 있으면 됩니다. 목성이 얼마나 큰지 알 필요도 없고(태양에 비해 충분히 작다면), 위성이 몇 개인지, 온도가 얼마인지, 밀도가 얼마인지 등 아무것도 알 필요가 없습니다. 따라서 예측을 하기 위해 표현을 학습한다는 아이디어는 과학뿐만 아니라 AI에도 매우 근본적이라고 생각하며, 생성 모델로는 거기에 도달할 수 없을 것입니다. 왼쪽에서 보이는 것은 입력을 예측하려고 하는 생성 모델이고, 오른쪽에서 보이는 것은 입력 수준에서 예측을 시도하지 않고 예측을 할 수 있는 추상적 표현을 학습하려고 하는 결합 임베딩 예측 아키텍처(JPA) 중 하나입니다. 이것은 근본적으로 다르다고 생각하며, 이 분야에서 연구하는 것이 정말 중요하다고 생각합니다. 그리고 이러한 유형의 아키텍처를 학습시키려고 할 때 나타나는 특정 문제가 있습니다. 생성 아키텍처를 학습시키는 것이 훨씬 쉽지만, 비디오에 대해서는 작동하게 만들 수 없습니다. 따라서 생성 AI를 포기해야 합니다. 제 조직인 메타의 Gen AI라고 불리는 동료들에게 이 말을 하면 충격적으로 들릴 것입니다. 그들은 저에 대해 그다지 행복해하지 않습니다. 그리고 오늘날 생성 AI에 완전히 집착하는 더 넓은 커뮤니티 내에서, 몇 년 안에 생성 AI라는 아이디어 전체를 포기해야 할 것이라고 말하면 그들은 저를 미쳤다고 생각합니다. 하지만 익숙합니다. 이전에도 그런 일이 있었습니다. 따라서 이것은 큰 권장 사항이며, 다시 말하지만 이것이 물리학이나 더 일반적으로 과학에서 모델이 구축되는 방식이며, 예측을 하려고 할 때 추상화 수준을 높여야 하는 이유는 그것이 우리가 세상을 파악할 수 있는 방식이기 때문입니다.

알베르트 아인슈타인의 유명한 인용구가 있습니다. 세상에 대해 가장 이해할 수 없는 것은 세상이 이해 가능하다는 것입니다. 즉, 우리가 생존하고 세상을 이해할 수 있도록 세상에 구조가 있다는 것이 어떻게 가능할까요? 그리고 우리가 이것을 할 수 있는 이유는 추상화 수준을 구축할 수 있기 때문입니다. 원칙적으로 이 방에서 현재 일어나고 있는 모든 것을 양자장 이론의 관점에서 모델링할 수 있습니다. 양자장 이론 또는 현재 물리학 이론을 통해 물리 시스템에서 일어나는 모든 것을 도출할 수 있지만, 물론 완전히 비실용적일 것입니다. 따라서 우리는 서로 다른 수준에서 예측을 할 수 있도록 여러 수준의 추상화를 발명했습니다. 양자장에서 입자, 원자 및 분자, 물질 및 물체, 기계, 그리고 생물 세계에서는 단백질, 기관, 세포, 유기체, 개체, 사회 등으로 말이죠. 그리고 우리는 적절한 수준의 표현을 찾는 것이 정말 중요하고, 한 수준에서의 좋은 표현은 매우 중요한 질문이라는 것을 결코 설명하지 않습니다. 그것은 모두 표현 학습에 관한 것입니다. 12년 전에 시작하여 이번 주 싱가포르에서 열리고 오늘 끝나는 컨퍼런스는 표현 학습 국제 컨퍼런스(International Conference on Learning Representations)라고 불립니다. 그것이 AI에서 정말로 중요한 핵심 문제라고 생각하며, 오랫동안 그래왔습니다. 그것이 딥 러닝의 전체 목적입니다.

결합 임베딩 아키텍처의 다양한 변형이 있지만, 조금 더 빠르게 진행하겠습니다. 우리가 해야 할 일은 이러한 아키텍처를 학습시키는 것이며, 해결해야 할 주요 문제는 붕괴를 방지하는 것입니다. 표현 공간에서 예측 오류(sy와 예측된 sy의 차이)를 최소화하도록 학습시키기만 하고 다른 작업을 수행하지 않으면, 시스템은 단순히 입력에 대한 모든 정보를 무시하고 일정한 출력을 생성합니다. 따라서 sy와 sx는 같아지고 이제 예측 문제는 사소해지며 시스템은 우리가 제시하는 모든 것에 대해 0의 에너지를 제공합니다. 이는 좋은 모델이 아닙니다. 우리가 제시하는 x와 y 쌍에 대해 시스템이 0의 에너지를 제공해야 할 뿐만 아니라, 제시하지 않는 것에 대해서는 더 높은 에너지를 생성해야 합니다. 그것이 복잡해지는 부분이며, 앞서 보여드린 에너지 기반 모델의 프레임워크가 필요한 부분입니다. 우리가 제시하지 않는 것에 대해 시스템의 에너지가 실제로 우리가 제시한 예보다 더 높은지 어떻게 확인합니까? 두 가지 방법이 있습니다. 하나는 대조적 방법이라고 하는 집합이고, 다른 하나는 제가 정규화된 방법이라고 부르는 집합입니다. 대조적 방법의 기본 아이디어는 학습 세트에 없는 x와 y 쌍인 대조점을 생성하고, 해당 에너지 값이 올라가도록 모델의 매개변수를 변경하는 것입니다. 즉, 학습 샘플(호환되는 x와 y 쌍)의 에너지를 낮추고, 대조된 샘플의 에너지를 높입니다. 불행히도 이는 확장성이 좋지 않습니다. 고차원 표현 공간이 있는 경우, 극한에서는 해당 표현 공간의 차원에 따라 기하급수적으로 증가해야 하는 많은 대조점이 필요합니다. 반면 정규화된 방법은 다르게 작동합니다. 학습 중에 최소화하는 비용 함수에 낮은 에너지를 가질 수 있는 공간의 볼륨을 최소화하려고 시도하는 항이 있어 더 효율적일 수 있으며, 이를 수행하는 방법은 약간 신비합니다. 에너지 기반 모델을 파라메트릭 모델로 바꿀 수 있지만, 건너뛰겠습니다. 지난 10년 정도 동안 사람들이 수행한 일부 실험은 원하는 시스템 아키텍처(예: 이미지)를 사전 학습시키고 표현을 생성하도록 학습시킨 다음, 지도 학습을 사용하여 그 위에 헤드를 학습시켜 해당 표현이 좋은 표현인지 테스트하고, 지도 작업의 성능이 좋은지 확인하는 것입니다. 학습된 표현이 좋다면, 작은 헤드(아마도 1~2개 계층)로 객체 분류 또는 기타 비전 작업에서 좋은 성능을 얻을 수 있을 것입니다. 그것이 시나리오이며, 기본적으로 동일한 이미지의 다른 뷰인 쌍을 시스템에 제시하거나, 동시에 다른 것으로 알려진 쌍을 제시한 다음, 해당 표현을 서로 멀리 밀어내는 대조적 방법을 사용할 수 있습니다. 그 개념은 1993년 제 논문 중 하나에서 수년 전에 발명되었지만, 불행히도 고차원 표현에는 작동하지 않습니다. 따라서 또 다른 방법 집합을 증류 방법이라고 합니다. 이러한 방법의 작동 방식은 두 개의 인코더가 있고, 두 인코더가 동일한 가중치를 공유하지만, 오른쪽 인코더는 왼쪽 인코더 가중치의 지수 이동 평균을 사용하고, 왼쪽 인코더만 기울기를 얻습니다. 기울기는 오른쪽 인코더로 역전파되지 않습니다. 기본적으로 왼쪽 인코더 가중치의 시간 평균을 얻습니다. 이를 증류 방법이라고 하며, EMA(지수 이동 평균)를 사용합니다.

이것은 작동하지만, 왜 그런지 매우 신비합니다. 적어도 일부 조건에서는 어떤 이유로 붕괴되지 않습니다. 그리고 이에 대한 일부 이론이 있습니다. 캘리포니아의 FAIR 동료들과 스탠포드의 수리아 공굴리의 논문 중 하나가 있지만, 제한적인 경우일 뿐입니다. 따라서 이론적 관점에서 왜 작동하는지 잘 이해되지 않았지만 작동합니다. 그리고 우리가 사용해 온 여러 가지 방법이 있습니다. 파리의 FAIR 동료들이 개발한 디노(DINO)라는 기술이 있으며, 모두 오픈 소스이므로 다운로드하여 사용할 수 있습니다. 기본적으로 이미지에서 모든 종류의 용도로 사용할 수 있는 표현 특징을 추출하는 완전히 일반적인 방법입니다. 예를 들어, 전 세계의 캐노피 높이를 추정하여 식물에 얼마나 많은 탄소가 포착되었는지 추정하는 데 사용했습니다. 의료 이미지, 생물학, 모든 종류의 분야에 사용됩니다. 더 최근의 연구는 몇 주 전에 arXiv에 발표된 논문인데, 완전히 자기 지도 학습인 이 디노 방법이 지금까지 사람들이 생성한 모든 지도 학습 방법보다 절대적인 측면에서 더 나은 표현을 실제로 생성할 수 있다는 것을 보여줍니다. 예를 들어 CLIP 스타일입니다. 그리고 이것은 매우 중요합니다. 지금까지는 그렇지 않았기 때문입니다. 사람들은 지도 학습이 항상 자기 지도 학습을 이길 것이라고 믿었지만, 더 이상 그렇지 않습니다.

이것을 어떻게 사용할 수 있는지에 대한 예가 있습니다. 이것은 제가 앞서 설명한 것과 같은 유형의 세계 모델인데, 예를 들어 로봇의 행동 계획에 사용됩니다. 그리고 이 모델은 제가 어떻게 작동하는지 자세히 설명하지 않았지만 완전히 자기 지도 학습인 이 디노 알고리즘을 통해 학습된 표현을 사용합니다. 따라서 잘 모델을 학습시키는 방법은, 예를 들어 플래터에 작은 파란색 칩이 여러 개 있는 로봇 팔과 같은 상황을 시스템에 보여주는 것입니다. 이 로봇이 테이블 위에서 이동하거나 델타 x, 델타 y만큼 이동하고 들어 올리는 것과 같은 매우 간단한 작업을 수행하도록 합니다. 그런 다음 결과를 관찰하고, 초기 상태의 표현과 수행한 행동의 표현에서 결과의 표현을 예측하도록 신경망을 학습시킵니다. 해당 시스템이 있으면 시간에 따라 등록할 수 있습니다. 즉, 현재 세계 상황을 관찰하고 디노 표현 추출기를 통해 실행한 다음, 일련의 행동을 상상하고, 세계 모델을 여러 시간 단계로 실행하여 해당 행동을 취한 결과를 상상합니다. 그리고 이를 목표 상태와 예측된 상태 간의 거리를 측정하는 거리 측정에 연결합니다. 이제 추론 과정은 추론 시간에 해당 거리를 최소화하는 일련의 행동을 최적화를 통해 탐색하는 것으로 구성됩니다. 모든 종류의 사람들이 테스트 시간 계산에 대해 이야기하지만, 이것은 테스트 시간 계산이지만 최적화를 통한 추론입니다. 실제로 행동의 추상적 표현 공간에서 말이죠.

이렇게 하면 실제로 작동하며, 시스템이 예측할 것이라고 생각하는 것을 나타내도록 디코더를 학습시킬 수 있습니다. 시간이 부족하므로 이 특정 차트를 설명하지는 않겠지만, 과거에 사람들이 제안했던 드리머(Dreamer)와 같은 대체 접근 방식보다 이것이 얼마나 더 잘 작동하는지에 대한 세부 정보로 여러분을 지루하게 하지 않고 실제 최종 비디오를 보여드리겠습니다. 초기 상태에서 시작하여 여기에 대상 상태 모음이 있습니다. 그런 다음 하단에 있는 이 모델을 사용하여 계획을 세우면 상단 대상에 최대한 가까운 구성에 도달하기 위해 시스템에서 계획한 일련의 행동이 보입니다. 여기서 취해지는 일련의 행동은 약 25개 정도이며, 어느 정도 작동합니다. 그 파란색 칩들의 역학은 서로 상호 작용하고 밀기 때문에 정말로 복잡합니다. 고전적인 최적 제어 방식으로 이것을 수행한다면 기본적으로 불가능할 것입니다. 그리고 우리는 이것을 여러 가지 다른 상황에 적용했습니다. 따라서 이것은 매우 잘 작동하며, 오픈 소스이고 데모 웹사이트도 있습니다.

이것은 실제로 더 오래된 연구인데, 이 JPEA 유형 아키텍처를 약간 다른 방식으로 학습시키는 Japa 및 VJA라고 하는 방법을 사용했습니다. 이는 마스크를 사용하여 이미지 또는 비디오를 표현하도록 시스템을 학습시키는 것으로 구성됩니다. 이미지 또는 비디오를 가져와서 부분적으로 마스크 처리한 다음, 인코더를 학습시켜 손상되거나 부분적으로 마스크 처리된 비디오의 표현에서 전체 비디오의 표현을 예측할 수 있도록 이 이미지 또는 비디오를 표현합니다. 이것은 매우 잘 작동하며, 매우 효율적이고 빠르게 학습하며, 사람들이 시도한 모든 생성 방법보다 더 잘 작동합니다. 여기 검은색 사각형 점은 재구성을 통해 자기 지도 학습된 방법입니다. 이미지를 가져와서 특정 부분을 마스크 처리한 다음, 기본적으로 자동 인코더인 큰 신경망을 학습시켜 전체 이미지를 재구성합니다. 그리고 여기서 볼 수 있는 것은 시스템 학습에 소비한 시간과 y축은 객체 분류 성능입니다. 객체를 분류하기 위해 표현 위에 헤드를 학습시킵니다. 그리고 볼 수 있는 것은 이 apa 방법인 파란색 곡선이 재구성을 통해 작동하는 마스크 처리된 자동 인코더 기술보다 더 빠르게 더 나은 성능을 얻는다는 것입니다. 따라서 재구성을 통해, 즉 생성 모델을 통해 세상의 표현을 학습하도록 시스템을 학습시킬 수 있다는 아이디어는 아마도 틀렸을 것입니다. 결합 방출 아키텍처를 사용하는 것이 더 좋습니다. 이미지 및 비디오 맥락에서 재구성하지 않는 것이 재구성하는 것보다 훨씬 더 잘 작동한다는 많은 증거가 있습니다. 따라서 다시 말하지만 생성 모델은 잊으십시오. 텍스트를 생성하거나 비디오를 생성하려는 경우가 아니라면 말입니다. 하지만 콘텐츠를 실제로 이해하는 데 관심이 있다면 생성하지 마십시오. 또는 표현 공간에서 생성하십시오.

이것은 비디오에 대한 유사한 실험인데, 16프레임의 짧은 비디오를 시스템에 제공하고 부분적으로 마스크 처리된 비디오를 재구성하도록 학습시킵니다. 그리고 다시 말하지만, 표현을 사용하여 행동을 분류하거나 예측하거나 이와 유사한 작업을 수행할 수 있는지, 또는 로봇의 행동을 계획하는 데 사용할 수 있는지 테스트할 수 있습니다. 여기에는 예가 없고 세부 정보로 여러분을 지루하게 하지 않겠지만, 매우 잘 작동합니다. 그런 다음 별도의 디코더를 학습시켜 시스템이 마스크 처리된 비디오 부분에서 어떤 일이 일어날 것이라고 상상하는지 확인할 수 있습니다. 그리고 매우 놀라운 것은 이제 심리학자가 유아의 능력을 테스트하는 것과 동일한 상황에서 해당 시스템을 사용할 수 있다는 것입니다. 즉, 불가능한 일이 일어나는 비디오를 보여줍니다. 예를 들어 공이 공중으로 던져지고 궤적을 따라가다가 사라지거나, 공이 궤적을 따라가다가 큐브로 변하거나, 공이 화면 뒤로 사라지고 화면이 내려왔는데 공이 더 이상 없는 경우입니다. 따라서 물리적으로 불가능한 일이 일어나는 비디오를 시스템에 보여주고, 매번 표현 공간에서 예측 오류를 측정하면, 불가능한 사건이 발생할 때마다 시스템은 높은 예측 오류를 나타냅니다. 따라서 이러한 시스템은 자연 비디오로 학습하는 것만으로도 현실 세계에서 무엇이 가능하고 무엇이 불가능한지에 대한 일종의 상식을 어느 정도 학습했습니다. 이는 정말로 처음 일어난 일이며, 매우 멋지다고 생각합니다.

다시 말하지만, 이에 대한 많은 결과가 있습니다. 논문을 읽어보시기를 권장합니다. 이제 정보 측정의 최대화에 기반한 이러한 JAR 아키텍처를 학습시키는 더 나은 방법을 찾고 있습니다. 이것이 정확히 어떻게 작동하는지 설명할 시간은 없지만, 기본적으로 인코더에서 나오는 정보의 일부 추정치를 얻고 인코더에서 나오는 정보를 최대화하려고 시도하는 비대조적이고 비증류적인 방법 중 하나로 시스템을 학습시킵니다. 예를 들어 공분산 측정과 같은 것을 사용합니다. 그리고 이것은 작동합니다. 특정 기술이 있으며 작동하지만, 정보 콘텐츠를 최대화하고 싶기 때문에 이론적으로 잘 정당화되지 않습니다. 이는 정보 콘텐츠에 대한 하한이 필요하다는 것을 의미하지만, 불행히도 정보 콘텐츠에 대한 하한은 없고 상한만 있습니다. 따라서 상한을 최대화하고 실제 정보 콘텐츠가 따르기를 바라지만, 실제로 확신할 수는 없습니다. 그냥 작동할 뿐입니다. 따라서 인코더에서 나오는 개별 변수가 붕괴되지 않도록(예: 0의 분산을 갖지 않도록) 하고, 분산 수준을 특정 임계값 이상으로 유지하고, 상관 관계가 없도록 하는 것을 기본으로 하는 방법이 있습니다. 기본적으로 시스템에 보여주는 여러 샘플이 있고, 샘플 배치 전체에 걸쳐 해당 표현 행렬의 열이 가능한 한 직교하고, 노름 1에 가능한 한 가까운 것을 원합니다. 그런 다음 대조적 방법이 있습니다. 대조적 방법은 동일한 작업을 수행하지만 해당 행렬의 행에 대해 각 샘플이 다른 표현을 갖도록 시도합니다. 따라서 이러한 두 가지 방법 사이에는 이중성이 있으며, 여기에서 이 이중성을 설명하는 논문이 있지만 자세히 설명하지는 않겠습니다.

하지만 흥미롭게도 이에 대한 일부 이론이 있지만 자세히 설명하지는 않겠고, 효율적으로 작동하도록 하는 다양한 트릭도 있지만 자세히 설명하지 않겠고, 일부 결과도 있지만 자세히 설명하지 않겠습니다. 하지만 이 기술로 잘 모델을 학습시킬 수 있으며, 기본적으로 계획에 사용할 수 있는 세계 모델을 학습시킬 수 있습니다. 따라서 이 분산 공분산 손실, 즉 이 공분산 행렬 손실을 사용하여 학습시키고, 다단계 예측을 하도록 세계 모델을 학습시킵니다. 그런 다음 이것을 사용하여 특정 목표에 도달하기 위해 미로에서 궤적을 계획하는 것과 같은 간단한 상황에 대한 일련의 행동을 계획할 수 있습니다. 이것은 비디오여야 합니다. 편미분 방정식의 속성을 예측하기 위해 과학적 상황에 적용할 수도 있지만, 시간이 부족하므로 건너뛰고 결론으로 넘어가겠습니다.

또 다른 예입니다. 이것은 자연 비디오에서 가져온 것으로, 사전 학습된 인코더를 사용하여 움직일 때 세상이 어떻게 보일지 예측하도록 세계 모델을 학습시킵니다. 로봇이고 로봇이 움직이면, 로봇이 움직인 후 세상이 표현 수준에서 어떻게 보일지 예측할 수 있습니까? 이것을 예측할 수 있다면, 로봇에게 파란색 쓰레기통으로 가라고 말할 수 있습니다. 쓰레기통에서 멀리 떨어져 있을 수도 있지만, 쓰레기통 근처에 있을 때 세상이 어떻게 보일지 예측할 수 있기 때문에, 거기에 도달하기 위한 일련의 행동을 기본적으로 예측할 수 있습니다. 이것은 새로운 논문이며, arXiv에 있으며 데모 사이트도 있습니다.

기본적으로 제가 제시하는 권장 사항은 다음과 같습니다. 이는 AI 분야에서 저를 매우 인기 있게 만들고 있습니다. JEA를 선호하여 생성 모델을 포기하십시오. 확률 분포가 데이터에 기반하지 않기 때문에 의미가 없는 추상적 표현 공간에서 예측을 하고 있으므로 확률 모델을 포기하십시오. 따라서 이에 대한 확률적 주장을 할 수 없을 것입니다. 일종의 더 약한 형태의 프레임워크인 에너지 기반 모델을 사용해야 할 것입니다. 마지막 부분에서 언급한 증류 또는 정규화 방법을 선호하여 대조적 방법을 포기하십시오. 그리고 물론 12년 동안 계속 말해 왔듯이 강화 학습의 사용을 최소화하십시오. 강화 학습은 매우 비효율적이기 때문입니다. 따라서 강화 학습을 사용하여 행동을 미세 조정하기 전에 세상에 대한 많은 배경 지식이 있어야 합니다. 필요하지만 너무 많은 시행착오가 필요하므로 사용을 최소화해야 합니다. 운전을 배우기 위해 강화 학습을 사용해야 했다면 도로에는 많은 사망자가 발생했을 것입니다.

결론은, 인간 수준의 AI에 도달하는 것과 같이 AI의 다음 단계에 정말로 관심이 있다면(학문 환경에 있다면 그래야 합니다), LLM에 대해 연구해서는 안 된다는 것입니다. LLM에 대해 연구하고 싶다면 텍스트 생성이나 NLP에 관심이 있다면 그렇게 하십시오. 하지만 지능형 기계를 구축하는 것과 같은 AI의 장기적인 목표에 정말로 관심이 있다면, LLM은 주의를 분산시키는 것이며, 일종의 우회로입니다. 유용하고 많은 일자리가 있으며, 그 맥락에서 할 수 있는 멋진 일들이 많습니다. 따라서 관심이 있다면 하지 말라고 말하는 것이 아니라, AI에서 상당한 진전을 이루는 데 관심이 있다면 그것은 잊으십시오.

이제 제가 대충 얼버무린 해결해야 할 많은 문제가 있습니다. 계획 관련 변수, 모든 종류의 양상에 대한 대규모 세계 모델 확장, 불확실성 하에서의 계획, 앞서 말했듯이 완전히 해결되지 않은 계층적 계획, 그리고 제가 언급하지 않은 다양한 연상 기억, 그리고 수학자나 이와 비슷한 사람이라면 흥미를 느낄 수 있는 이와 관련된 모든 종류의 기술적 문제가 있습니다.

그리고 앞으로 3년, 5년, 10년 안에 우리가 할 수 있을지도 모르는 것은, 추론하고 계획하고 물리적 세계를 이해할 수 있는 AI 시스템의 다음 단계에 도달하는 것입니다. 이는 LLM이 정말로 할 수 없는 모든 것이며, 유용할 만큼 똑똑한 로봇의 문을 열어줄 것입니다. 현재 업계에는 큰 비밀이 있는데, 많은 사람들이 휴머노이드 로봇을 만들고 있으며, 이를 위해 많은 회사가 설립되고 있지만, 그 로봇을 유용할 만큼 똑똑하게 만드는 방법에 대한 아이디어가 전혀 없습니다. 기술이 존재하지 않는다는 것은 사실입니다. 매우 좁은 작업에는 유용하게 만들 수 있지만, 궁극적으로 원하는 것은 인간만큼 다재다능한 것이며, 이를 수행하는 방법에 대한 아이디어가 전혀 없습니다. 따라서 이러한 회사 중 일부가 기대하는 것은 AI가 향후 3~5년 동안 충분히 발전하여 로봇의 하드웨어가 상업적으로 가치가 있을 때쯤에는 AI가 실제로 유용하게 만들 수 있을 만큼 충분히 발전할 것이라는 것입니다. 하지만 이 기술이 존재하고 이러한 로봇이 오늘날 유용하게 만들어질 수 있다는 생각은 단순히 잘못된 것입니다.

또 한 가지 제가 매우 강력하게 주장해 온 것은 오픈 소스 플랫폼의 필요성입니다. 우선 학계가 이 문제에 기여할 수 있도록 하기 위해서입니다. 기초 모델 학습은 매우 비싸서 현재 학계에서는 할 수 없기 때문입니다. 따라서 오픈 소스 플랫폼은 이를 위해 필요합니다. 또한 주권, 문화적 다양성, 언어적 다양성과 관련된 모든 종류의 이유로도 필요합니다. 하지만 질문 시간에 이에 대해 이야기할 수 있을 것입니다. 감사합니다.