Learning, Reasoning, and Planning with Neuro-Symbolic Concepts

Allen School Colloquia Series
Title: Learning, Reasoning, and Planning with Neuro-Symbolic Concepts
Speaker: Jiayuan Mao (MIT)
Date: April 14, 2025

Abstract

I aim to build complete intelligent agents that can continually learn, reason, and plan: answer queries, infer human intentions, and make long-horizon plans spanning hours to days. In this talk, I will describe a general learning and reasoning framework based on neuro-symbolic concepts. Drawing inspiration from theories and studies in cognitive science, neuro-symbolic concepts serve as compositional abstractions of the physical world, representing object properties, relations, and actions. These concepts can be combinatorially reused in flexible and novel ways. Technically, each neuro-symbolic concept is represented as a combination of symbolic programs, which define how concepts can be structurally combined (similar to the ways that words form sentences in human language), and modular neural networks, which ground concept names in sensory inputs and agent actions. I show that systems that leverage neuro-symbolic concepts demonstrate superior data efficiency, enable agents to reason and plan more quickly, and achieve strong generalization in novel situations and for novel goals. This is illustrated in visual reasoning in 2D, 3D, motion, and video data, as well as in diverse decision-making tasks spanning virtual agents and real-world robotic manipulation.

BIO

Jiayuan Mao is a Ph.D. student at MIT, advised by Professors Josh Tenenbaum and Leslie Kaelbling. Her research agenda is to build machines that can continually learn concepts (e.g., properties, relations, rules, and skills) from their experiences and apply them for reasoning and planning in the physical world. Her research topics include visual reasoning, robotic manipulation, scene and activity understanding, and language acquisition. She was named a Rising Star in EECS (2024) and in Generative AI (2024). Her research has received Best Paper Awards at CogSci 2024, SoCal NLP 2024, and the CoRL 2024 Workshop on Language and Robot Learning, as well as a Best Paper nomination at ACL 2019.• Slides: I will submit my slides one week in advance.

주요 핵심 내용: “신경 기호 표현을 활용한 학습, 추론 및 계획”

지아위안 마오 박사의 세미나는 신경 기호(Neuro-Symbolic) 접근 방식을 통해 인공지능 시스템이 데이터 효율적인 학습, 강력한 일반화, 그리고 복잡한 추론 및 계획 능력을 갖도록 하는 새로운 패러다임을 제시했습니다. 주요 핵심 내용은 다음과 같습니다.

1. 문제 정의 및 인간 지능과의 비교:

기존의 데이터 기반 학습 방식(특히 심층 신경망)은 많은 양의 데이터를 필요로 하며, 새로운 상황에 대한 일반화 능력이 부족하고, 복잡한 추론 및 계획에 어려움을 겪습니다.
인간은 단일 또는 소수의 예시로부터 학습하고, 새로운 상황과 목표에 대해 유연하게 추론하고 계획할 수 있는 뛰어난 능력을 가지고 있습니다.
특히 물리적 환경에서의 조작, 새로운 물체 및 상황에 대한 적응 능력에서 인간과 AI 시스템 간의 격차가 큽니다.

2. 신경 기호 개념(Neuro-Symbolic Concepts)의 제안:

지능을 세계 모델링(World Modeling)과 테스트 타임 추론(Test-time Inference)의 결합으로 보는 새로운 관점을 제시합니다.
신경 기호 개념은 상태(State) 특징과 행동(Action) 모델의 구성적이고 추상적인 표현으로, 비전, 언어, 로봇 공학 등 AI의 다양한 영역을 연결합니다.
이러한 개념은 언어로부터 학습되며, 최소한의 인간 사전 지식과 밀집된 지도 없이 학습 시스템을 구축하는 것을 목표로 합니다.

3. 비전-언어 이해(Visual Question Answering)에서의 적용:

신경 기호 개념을 활용하여 자연어 질의를 기호 프로그램으로 파싱하고, 시각 장면 표현에 대해 미분 가능한 실행을 수행하는 방식을 제시합니다.
이를 통해 개념 학습과 추론을 분리하고, 적은 데이터로도 효과적인 학습과 더 나은 일반화 능력을 달성할 수 있음을 보여줍니다.

4. 일반화 가능한 행동의 단일 샷 학습(One-Shot Learning of Generalizable Actions):

행동을 전제 조건(Precondition), 본체(Body), 효과(Effect)의 조합으로 표현하고, 제약 최적화(Constrained Optimization)를 통해 행동을 생성하는 방식을 제안합니다.
시각적 사전 훈련 모델을 활용하여 단일 예시로부터 새로운 물체와 환경에 대한 행동을 일반화하는 가능성을 보여줍니다.
물리 시뮬레이터를 모델 기반 계획에 통합하여 로봇이 새로운 작업을 효과적으로 수행하도록 합니다.

5. 장기 계획 학습(Learning for Long Horizon Plans):

언어 설명을 포함한 인간의 로봇 조작 궤적 데이터를 활용하여 장기 계획을 학습하는 시스템을 제시합니다.
대규모 언어 모델을 활용하여 상태 특징과 행동 관계를 분석하고, 신경 기호 개념 모델을 구축합니다.
이를 통해 이전에 보지 못한 상태와 목표에 대해 효과적으로 계획을 수립하고, 부분 관찰 가능성(Partial Observability) 하에서도 적절하게 대응할 수 있음을 보여줍니다.

6. 향후 연구 방향:

추론 및 계획을 위한 구성적 기반 모델(Compositional Foundation Model)로 접근 방식을 확장하는 것을 목표로 합니다.
새로운 상황에 맞는 특징과 행동 모델을 생성하고, 다양한 감각 입력과 개념을 처리할 수 있는 범용 감지기 및 모델을 구축하는 데 관심을 갖습니다.
지속적인 학습(Continual Learning) 패러다임을 개발하여 시스템의 역량을 점진적으로 확장하는 것을 연구합니다.
인간 인지 과학과의 연관성을 탐구하고, 인간의 학습 및 추론 방식을 이해하는 데 신경 기호 모델을 활용하는 데 관심을 갖습니다.
계산 복잡성, 샘플 복잡성, 문제 난이도 매개변수화 등 지능의 공학 과학(Engineering Science of Intelligence)을 구축하는 데 기여하고자 합니다.

결론:

지아위안 마오 박사의 연구는 신경 기호 접근 방식이 기존 AI 시스템의 한계를 극복하고, 인간과 유사한 유연하고 일반화 가능한 지능을 구축하는 데 중요한 역할을 할 수 있음을 시사합니다. 특히 데이터 효율적인 학습과 복잡한 추론 및 계획 능력 향상에 대한 잠재력을 강조하며, 향후 AI 연구의 중요한 방향을 제시합니다.

세부 세미나

진행자: 좋습니다. 시작해도 될 것 같습니다.

MIT에서 방문하신 지아위안 마오 박사님을 모시게 되어 매우 기쁩니다. 박사님은 신경 기호 표현을 사용하여 컴퓨터 비전, 로봇 공학 분야의 가장 어려운 추론 및 계획 문제를 해결하는 분야에서 떠오르는 스타입니다.

오늘 알게 된 재미있는 사실 중 하나는 올해만 7개의 워크숍을 조직하고 계시다는 것입니다. 정말 바쁘실 것 같습니다. 워크숍은 NAACL, ICML, ICRA, AAAI, CVPR 등 다양한 장소에서 개최됩니다. 이를 통해 박사님의 연구의 폭과 깊이를 엿볼 수 있다고 생각합니다.

더 이상 지체하지 않고 지아위안 박사님을 환영하겠습니다.

[박수갈채]

지아위안 마오: 정말 감사합니다. 네.

그리고 와주신 모든 분들께 감사합니다.

제 이름은 지아위안 마오입니다. MIT 박사 과정 학생입니다. 제 연구는 신경 기호 개념이라고 부르는 접근 방식을 통해 학습, 추론 및 계획 문제의 구조를 이해하려고 노력하는 것입니다.

제 연구에서 로봇 공학을 주요 테스트베드 중 하나로 사용합니다. 이 강연을 시작하며 이 질문을 던지겠습니다.

물리적 의사 결정 문제를 해결할 수 있는 범용 물리 지능 시스템을 어떻게 구축할 수 있을까요?

제가 주장하고 싶은 첫 번째 고려 사항 중 하나는 지능을 데이터 세트에 함수를 맞추는 것으로 생각하는 것입니다.

우리는 높은 수준의 이해에서 시작합니다. 즉, 모든 과거 관찰을 입력으로 받아 다음 수행할 작업을 출력하는 정책 π를 구축하려고 합니다.

이러한 접근 방식을 통해 일부 데이터를 수집하고 데이터 세트에서 어떤 것을 근사하는 함수를 구축하고 훈련하려고 시도할 수 있습니다.

이것은 최근 Physical Intelligence라는 회사에서 공개한 비디오입니다. 그리고 그들은 로봇을 훈련시켜 상자를 접으려고 합니다.

기술 사양을 보면 이 특정 상자를 접는 데만 100시간의 훈련 데이터가 필요합니다.

그리고 유사한 상자에 동일한 정책을 적용하면 성공률이 약 60%입니다.

인간이 하는 방식과는 대조적이라고 할 수 있습니다. 인간으로서 우리는 단 하나의 예에서 배우고 모든 다양한 상태와 목표에 매우 안정적으로 일반화할 수 있습니다.

누군가가 물병을 잘라 깔때기를 만들고 그것을 사용하여 액체를 붓는 이 비디오를 보여주면, 이 단일 예에서 즉시 일반화하여 다른 병, 다른 종류의 액체, 완전히 다른 상황에 이 기술을 적용하려고 시도할 수 있습니다.

실제 환경에서 우리가 하고 싶은 작업의 종류는 매우 다양합니다. 집안일을 생각해 보세요. 여러분은 전에 본 적 없는 새로운 구성의 새로운 물체를 끊임없이 보고 있습니다.

그리고 사람들은 여러분에게 다양한 종류의 일을 완수하도록 지시합니다. 정말 강조하고 싶은 것은, 작은 물리 게임인 이 특정 예를 보여드리고 싶다는 것입니다. 규칙은 간단합니다. 테이블 위에 여러 물체가 있고, 그중 두 개를 집어야 합니다. A와 B라고 부르겠습니다. 그리고 양손에 하나씩 쥐고 테이블에서 세 번째 물체 C를 손으로 직접 만지지 않고 들어 올리려고 합니다.

이것은 사람이 한 번 시도해 볼 수 있는 것으로, 한 손에는 펜, 다른 손에는 뚜껑을 사용하여 유리잔을 들어 올리려고 합니다.

이것은 아마도 전에 해본 적이 없을 테지만, 분명히 몇 가지 아이디어가 있을 것입니다. 그리고 이것은 인간이 이러한 새로운 시나리오에서, 심지어 이미 익숙한 물체를 완전히 새로운 방식으로 사용하여 얼마나 유연한 추론과 계획을 세울 수 있는지 보여줍니다.

우리는 어떻게 거기에 도달할 수 있을까요? 한 가지 제안은 더 많은 데이터가 필요하다고 말하는 것입니다. 하지만 스케일링만으로 이 문제가 정말 해결될까요?

이것은 답하기 매우 어려운 질문이지만, 복잡성 이론의 스케일링 법칙에 대한 몇 가지 아이디어가 있습니다. 이것은 제가 최근 2023년에 증명한 결과로, 대략적으로 트랜스포머 정책의 크기는 독립적으로 달성할 수 없는 하위 목표의 수에 따라 지수적으로 확장되어야 한다는 것입니다.

이것이 정확히 어떻게 작동하는지에 대한 자세한 내용은 말씀드리지 않겠지만, 몇 가지 통찰력을 드리겠습니다. 특정 작업에 대한 정책을 구축하고 싶다고 가정해 보겠습니다. 이 높은 수준의 작업을 하위 목표 1, 하위 목표 2 및 하위 목표 3과 같은 여러 하위 목표로 분해할 수 있다면, 각 하위 목표에 대한 정책을 훈련하고 직접 연결하여 원래 작업을 해결할 수 있습니다.

이러한 종류의 분해가 존재한다면, 원래 작업에 대한 작은 정책도 존재합니다. 그러나 그렇지 않다면 트랜스포머 정책의 크기를 지수적으로 늘려야 합니다.

이것을 맥락에 맞게 설명하자면, 앞에서 이야기했던 A, B, C 물건 집기 예시를 생각해 보세요. 이 작업을 A 집기, B 집기, C 집기와 같이 분해하고 싶을 수 있지만, 실제로 이 분해는 작동하지 않습니다. 왜냐하면 물건 A를 집는 특정 방식이 나중에 그것을 사용하여 C를 집을 수 있는지 여부에 영향을 미치기 때문입니다.

따라서 이러한 종류의 분해는 작동하지 않습니다. 따라서 이것은 A, B 및 C 간의 상호 작용에 대해 추론해야 하는 더 어려운 문제입니다. 복잡성 이론에 익숙한 사람들에게는 이러한 종류의 지수적 경계가 익숙할 것입니다. 그러나 이 논문에서 저희가 해낸 것은 종속적인 하위 목표의 수를 측정 기준으로 사용하여 세분화된 복잡성 이론을 식별하고, 이를 신경망 정책 학습과 연결하고, 이를 수행하는 데 필요한 데이터 양에 대한 함의를 갖는 것입니다.

만약 스케일링만으로는 이 문제를 해결할 수 없을 것이라는 믿음을 가지고 있다면, 어떻게 더 잘할 수 있을까요? 오늘 강연에서 저는 단 하나의 예에서 학습할 수 있는 새로운 AI 구축 패러다임에 대해 이야기할 것입니다. 그리고 우리가 가진 머신 러닝 도구(대형 모델 또는 소형 모델)와 우리가 알고 있는 추론 알고리즘을 사용하여 새로운 객체, 상태 및 가능한 목표에 대해 분포 외 일반화를 할 수 있습니다.

이러한 모든 종류의 것들은 다음과 같은 관점에서 시작됩니다. 즉, 지능을 세계 모델링 및 테스트 시간 추론으로 생각하는 것입니다. 특히 계획에 대해 이야기하겠습니다. 구체적인 예시를 생각해 보겠습니다. 저는 가정 환경에 있습니다. 주방 환경에서 접시를 닦을 것입니다. 작업을 완수하기 위한 이러한 종류의 일련의 행동을 찾는 한 가지 방법은 전환 모델을 사용하여 트리 검색을 수행하는 것을 생각하는 것입니다. 현재 상태의 일부 상태 표현으로 시작합니다. 이 환경에서 수행할 수 있는 가능한 행동을 열거합니다. 최종 계획을 세울 때까지 재귀적으로 수행합니다.

따라서 전환 모델과 테스트 시간 추론을 사용한 이러한 종류의 고유한 검색은 AI에서 결코 새로운 것이 아닙니다. 실제로 AlphaGo, 기하학 문제에 대한 정리 증명기인 알파 기하학, 그리고 대규모 언어 모델의 사고 사슬 또는 사고 트리(이러한 종류의 용어를 들어본 적이 있다면)의 최근 성공의 많은 부분이 이 아이디어에 기반을 두고 있습니다. 그 뒤에는 일종의 전환 모델이라는 기본 가정이 있습니다. 이를 통해 이러한 종류의 검색 또는 테스트 시간 추론을 수행할 수 있으며, 정책 자체보다 더 간결합니다. 따라서 학습하기가 더 쉬울 수 있습니다.

하지만 이러한 종류의 시스템을 실제로 구현하려면 어떤 종류의 세계 모델을 구축해야 하는지에 대해 여전히 신중해야 합니다. 예를 들어, 한 가지 아이디어는 단순히 엔드투엔드 세계 모델을 구축하는 것입니다. 예를 들어, 픽셀 수준 예측을 수행하는 것입니다. 그리고 이것은 제가 최근 OpenAI의 Sora, 최첨단 비디오 예측 모델 중 하나를 사용하여 생성한 결과입니다. 저는 로봇이 접시를 닦는 비디오를 생성하도록 프롬프트했습니다.

좋습니다. 이것이 생성한 비디오입니다. 우선, 물리적으로 불가능합니다. 그리고 또한 제가 지시한 대로 작업을 완료하지 못합니다. 여기서 두 가지 중요한 과제가 있음을 강조하고 싶습니다. 첫 번째는 이러한 종류의 모델 훈련을 어떻게 확장하여 물리적으로 가능하게 만들 수 있을까요? 그리고 두 번째는, 그러한 모델이 있더라도 계획 목적으로 어떻게 효율적으로 사용할 수 있을까요?

이러한 과제를 해결하기 위해 제 연구는 추상화 학습 및 구성적 세계 모델의 원리에 기반한 다른 종류의 모델 학습에 초점을 맞췄습니다. 다시 말해, 이 주방 환경에 집중하면 인간으로서 우리는 세상에 이러한 모든 개체가 있음을 알 수 있습니다. 로봇이 있습니다. 다양한 종류의 물체가 있습니다. 그리고 물체는 다양한 특징을 가질 것입니다. 모양, 자세 또는 더러움 정도가 있습니다. 행동에 대해 생각하면 그것들은 연결됩니다. 그것들은 장면의 특정 측면, 환경의 몇몇 물체와 관련이 있습니다. 그리고 그 효과는 조인트와 같은 환경의 특정 측면을 변경하거나 물체의 자세를 변경하거나 이 접시 닦기 행동을 실행하면 물체의 더러움 정도를 변경하는 것입니다.

오늘 강연에서 저는 신경 기호 개념이라고 부르는 이 프레임워크를 사용하여 이러한 종류의 모델을 어떻게 구축할 수 있는지 알려드릴 것입니다. 신경 기호 개념이 무엇을 의미하는지 잠시 후에 정확히 알려드리겠습니다. 하지만 지금은 이러한 개념이 상태와 행동에 대한 구성적 추상화라고 생각해 보세요. 그것은 추상적인 공간에 존재합니다. 그것은 비전에서 볼 수 있는 것, 언어로 말할 수 있는 것, 그리고 행동할 수 있는 것입니다. 따라서 그것은 AI, 비전, 언어 및 로봇 공학의 중요한 영역을 연결하는 표현입니다. 그리고 전반적인 목표는 하나 또는 아주 적은 수의 예에서 매우 효율적인 학습을 할 수 있고 솔루션에서 일반화할 수 있는 시스템을 구축하는 것입니다.

오늘 강연의 개요는 다음과 같습니다. 먼저 제가 무엇을 의미하는지 설명하겠습니다. 신경 기호 개념이란 무엇일까요? 비전 언어 이해에 대한 몇 가지 예를 제시하겠습니다. 그런 다음 일반화 가능한 행동의 단일 샷 학습에 대해 이야기하겠습니다. 그리고 마지막으로 비전, 행동 및 언어 표현을 연결하는 영역인 장기 계획 학습에 대해 이야기하겠습니다.

이제 신경 기호 개념이 무엇인지 알아보겠습니다. 수학적으로 신경 기호 개념은 구성적이고 추상적인 세계 모델을 형성합니다. 그것은 우리가 관심을 갖는 일부 상태 특징과 일부 행동 모델의 두 부분으로 구성됩니다. 저는 상태 특징을 표현하기 위해 이 특정 방식을 사용할 것입니다. 그것들은 특징 1, 특징 2 및 특징 3과 같은 일부 ID를 가지고 있으며, 물리적 세계의 일부 개체와 관련이 있습니다. 일반적으로 그것들은 원시 인식 데이터에서 이러한 특징을 인식할 수 있는 신경망 기반 추출기와 관련이 있습니다. 두 개체 간의 관계와 같은 관계형 특징을 구축할 수도 있습니다. 행동의 경우 저는 그것을 표현하기 위해 특정 방식을 사용할 것입니다. 그것은 일부 전제 조건을 가질 것입니다. 이 행동을 실행하기 전에 일부 조건이 참이어야 합니다. 그것은 실제로 로봇을 움직여 이 작업을 완수하는 일부 본체를 가질 것입니다. 그리고 마지막으로 일부 효과를 가질 것입니다. 즉, 상태 특징을 어떻게 변경할 것인지입니다. 과거의 사람들은 일종의 모델을 구축하려고 노력했지만, 우리가 배운 몇 가지 교훈은 일종의 나쁜 관행입니다. 이것은 세계의 연속적인 본질을 포착할 수 없는 완전히 이산적인 모델을 구축하는 것을 포함합니다. 또한 초기 연구의 많은 부분은 시스템에 중요한 특징이 무엇인지 알려주는 인간 정의 모델에 크게 의존했습니다. 또한 인간은 로봇에게 각 개별 특징을 인식하는 방법을 가르치기 위해 세분화된 예시 또는 세분화된 주석을 수집해야 합니다. 따라서 이러한 종류의 것들은 전체 학습을 매우 확장 가능하지 않게 만듭니다. 오늘 저는 언어에서 신경 기호 개념을 학습하는 것이라고 부르는 이러한 종류의 표현을 구축하는 대안적인 방법에 대해 이야기할 것입니다. 그것은 우리가 이야기할 수 있는 물리적 기본 요소, 즉 물체, 사건 또는 로봇 명령과 같은 것을 생각하는 것으로 시작합니다. 그리고 그것을 기반으로 구축합니다. 우리는 그러한 이름과 그러한 특징, 즉 개념이 서로 관련되는 방식을 생각합니다. 그것들은 언어에서 얻어지므로 언어로 표현됩니다. 여기서 핵심적인 통찰력은 물리적 세계에 대한 개념의 구성적 구조를 정의하는 모든 기호와, 최소한의 인간 사전 지식과 그 어떤 것에 대해서도 밀집된 지도 없이 학습 시스템을 구축할 수 있게 해준다는 것입니다. 다음에서 저는 시각 질의 응답의 특정 예에서 이러한 아이디어를 구체적으로 설명할 것입니다. 이것은 제가 거의 7년 전 학부 시절에 실제로 했던 연구입니다. 따라서 이것은 시각 질의 응답 문제를 해결하기 위한 최첨단 접근 방식은 결코 아닙니다. 그러나 이러한 종류의 연구는 신경 기호 개념이 무엇을 의미하는지, 그리고 언어 데이터에서 그것들을 학습하는 방법에 대한 몇 가지 기본적인 아이디어를 정말로 보여줍니다. 문제는 다음과 같습니다. 이미지를 제공하고 “접시가 조리대 위에 있습니까?”와 같은 자연어 질의를 제공합니다. 이 질문에 답할 수 있는 시스템을 구축하고 싶습니다. 표준적인 방법 중 하나는 다음과 같습니다. 이미지와 질의를 입력으로 받아 답을 출력하는 엔드투엔드 신경망을 구축합니다. 이 프레임워크에서 학습 문제에는 두 가지가 얽혀 있습니다. 첫 번째는 모양과 관계를 인식하는 방법과 같은 개념 학습 문제입니다. 그리고 두 번째는 객체 수를 세는 방법과 같은 일부 추론 능력입니다. 이것은 우선 이러한 종류의 네트워크를 훈련하는 데 일반적으로 많은 데이터가 필요하다는 제한을 가져옵니다. 그리고 둘째, 학습 후 이러한 개념은 다른 작업에 정확히 잘 전이되지 않습니다. 신경 기호 개념의 원리에 따라 이제 개념 학습과 추론 간의 분리를 가질 수 있습니다. 그것은 이 자연어 명령을 그 기본 추론 사슬을 복구하는 기호 프로그램으로 파싱하는 것으로 시작됩니다. 예를 들어, 이 경우 세 가지 다른 단계로 분해할 수 있습니다. 첫 번째는 조리대인 객체를 찾는 것입니다. 그런 다음 X가 접시이고 X가 방금 찾은 조리대 위에 있는 객체 X를 찾고 싶습니다. 그런 다음 그러한 객체 X가 존재하는지 여부를 알고 싶습니다. 이 특정 단계는 언어 처리 또는 의미 처리 또는 [알 수 없는 단어]라고 합니다. 그리고 접근 방식의 최첨단 기술은 대규모 언어 모델을 사용하여 코드를 생성하는 것만으로 그것을 해결하는 것입니다. 이것은 오늘 강연의 주요 초점이 아닙니다. 이러한 종류의 프로그램은 세 단계를 거치는 이 다이어그램에서 시각화할 수 있습니다. 그리고 여러 개념이 있을 것입니다. 이 경우 조리대, 접시 및 관계와 관련된 상태 특징과 같은 것들입니다.

이제 이 프로그램의 시각적 다이어그램 표현에 집중하겠습니다. 이러한 종류의 프로그램을 얻은 후, 우리가 할 수 있는 한 가지는 시각 장면 표현을 기반으로 이 프로그램의 미분 가능한 실행을 수행하는 것입니다. 먼저 객체 감지를 수행하여 이 환경의 모든 객체를 지역화합니다. 그리고 여기서 카운터는 기본적으로 상태 개념이며, 객체 특징을 입력으로 받아 예 또는 아니오를 출력하는 신경망과 연결되어 있다는 것을 상기하십시오. 따라서 각 개별 객체의 특징 위에 이 카운터 신경망을 적용하면 각 개별 객체가 카운터인지 여부에 대한 점수를 얻게 됩니다. 그리고 각 객체가 카운터인지 여부에 대한 확률 또는 신뢰 점수로 생각해 보세요. 모든 객체 쌍 간의 관계를 인식하는 데 유사한 작업을 수행할 수 있습니다. 그리고 확률의 연쇄 규칙을 사용하여 카운터 위에 있는 객체를 계산할 수 있습니다. X가 카운터 위에 있을 확률은 Y가 카운터이고 X가 Y 위에 있는 모든 Y에 대한 합과 같습니다. 모든 객체에 접시 인식 네트워크를 적용하여 접시가 어디에 있는지 인식하는 유사한 작업을 수행할 수 있습니다. 두 집합의 논리곱을 취하여 카운터 위에 있고 접시이기도 한 객체를 찾고, 그러한 객체가 존재하는지 여부에 대한 확률을 반환하려고 시도합니다. 주목해야 할 한 가지는 이 최종 출력이 기본적으로 시각 장면 표현 위에 이러한 신경망을 적용하여 생성한 모든 중간 확률 값의 구성이라는 것입니다. 이는 전체 계산 그래프가 모든 중간 확률 값에 대해, 그리고 결과적으로 모든 신경망 가중치에 대해 실제로 미분 가능하다는 것을 의미합니다. 이는 원래 질문에 대한 답(이 경우 예)이 있는 한, 그것을 직접 감독으로 사용할 수 있다는 것을 의미합니다. 그리고 카운터를 인식하고, 위에 있음을 인식하고, 접시를 인식하는 이러한 작은 신경망의 모든 가중치를 업데이트하기 위해 표준 엔드투엔드 미분 가능한 훈련을 사용할 수 있습니다. 이 프레임워크의 중요한 특징은 우선 학습하고 싶은 개념을 수동으로 주석 처리할 필요가 없다는 것입니다. 근본적으로 그것들은 데이터 세트의 모든 질문에서 비롯되기 때문입니다. 언어 파서를 사용하여 그것들을 프로그램으로 파싱하고 데이터에서 학습하고 싶은 모든 개념을 추출할 수 있습니다. 그리고 둘째, 이 객체가 카운터이고 저 객체가 접시라고 수동으로 주석 처리할 필요가 없습니다. 대신, 카운터, 위에 있음, 접시를 인식하기 위한 모든 인식 네트워크의 미분 가능한 학습을 자동으로 수행하기 위해 쌍을 이룬 질문과 답변에만 의존합니다. 그리고 여기서 실행 추적은 신경망 실행과 두 집합의 논리곱을 취하거나 객체 수를 세는 것과 같은 일부 기호 연산의 조합입니다. 결과적으로 이러한 종류의 시스템은 일반적으로 매우 데이터 효율적입니다. 개념 학습 문제와 추론 프로세스를 실제로 분리하기 때문입니다. 회계와 같은 추론 부분은 결정론적 프로그램으로 수동으로 코딩할 수 있습니다. 이러한 종류의 시스템은 일반적으로 신경망 또는 신경 기호 대안과 같은 다른 방법보다 훨씬 더 데이터 효율적입니다. 일반적으로 10배 더 데이터 효율적입니다. 또한 학습된 작은 개념 네트워크는 다른 작업으로 전이될 수 있습니다. 검색, 계산, 계획 목적으로 사용할 수 있습니다. 여기서 기본 원리는 인간과 프로그래밍 언어를 사용하여 학습과 추론의 개념을 분리하는 데 도움을 받는 것입니다. 이러한 종류의 프레임워크는 실제로 매우 일반적입니다. 우리는 질문 응답 설정에 이러한 종류의 시스템을 적용하고 개발하는 것으로 시작합니다. 그리고 원래 논문과 코드를 공개한 직후 사람들은 이러한 종류의 것을 비디오에서 사건과 그들의 인과 관계를 이해하는 것과 같은 동적인 것들을 추론하는 것으로 확장하려고 노력해 왔습니다. 또한 데이터에서 3D 참조 표현을 이해하는 것과 최근에는 인간 동작 캡처 데이터로 확장하려고 노력해 왔습니다. 2023년에 저와 제 동료들은 기본적으로 언어를 이해하는 대규모 언어 모델의 능력(기본적으로 매우 적은 데이터에서 개념 학습을 수행하는 이 능력을 사용하여 자연어를 실행 가능한 프로그램으로 번역하려고 노력하는 것)을 통합하는 방법에 대해 이야기하는 논문을 발표했습니다. 이를 통해 2D, 3D, 비디오 및 순차 데이터를 포함한 모든 다양한 도메인에서 추론할 수 있는 시스템을 구축할 수 있습니다. 그리고 앞으로 저는 데이터 효율성과 일반화가 의료 또는 생물 의학 데이터와 같은 중요한 역할을 하는 영역을 포함하여 유사한 종류의 것들을 다른 영역에 적용하는 것에 대해 매우 기대하고 있습니다. 이것은 쌍을 이룬 이미지와 언어 데이터에서 개념을 어떻게 학습할 수 있는지에 대한 개요를 제공합니다. 강연의 다음 부분에서는 초점을 약간 옮겨 행동 모델링과 데이터에서 그것들을 학습하는 것에 대해 생각해보겠습니다. 지금은 언어를 잠시 제쳐두고 나중에 다시 돌아올 것입니다. 따라서 이 부분에서는 일반화 가능한 행동의 단일 샷 학습에 대해 이야기하겠습니다. 먼저 신경 기호 행동 개념에 대해 이야기했던 이 원래 표현으로 돌아가고 싶습니다. 우리는 행동이 전제 조건, 본체 및 그 효과로 표현된다고 말합니다. 전제 조건 효과의 경우 그것들은 상태 특징 위에 정의된다고 생각할 수 있습니다. 하지만 우리는 그것의 본체에 대해 어떻게 생각해야 하는지에 대해 자세히 이야기하지 않았습니다. 그것에 대해 생각하는 간단한 방법 중 하나는 “아, 그것은 현재 상태에서 다음 수행할 행동으로 매핑하는 정책일 뿐이야”라고 말하는 것입니다. 하지만 실제로 저는 이미 여러분에게 힌트를 드렸습니다. 실제로 정책 기반 표현은 시간이 지나도 구성 가능하지 않기 때문에 그다지 좋지 않습니다. 우리의 ABC 집기 예시로 돌아가서 펜을 집기 위한 정책, 뚜껑을 집기 위한 정책, 유리잔을 집기 위한 정책의 세 가지 다른 정책이 있다면 실제로 우리가 관심을 갖는 원래 작업을 완수하기 위해 직접 전환할 수 없습니다. 따라서 오늘 강연에서 저는 행동에 대해 생각하는 대안적인 방법과 행동을 학습하고 생성하는 것에 대해 이야기할 것입니다. 즉, 제약 최적화를 통해 행동을 생성하는 것을 생각해 보세요. 단일 기술을 예로 사용하겠습니다. 물체를 집는 것을 생각해 보세요. 물체를 집는 것에 대한 진정한 목표는 로봇의 궤적을 생성하고, 관절 제한 내에 머무르기, 다른 물체와의 충돌 피하기와 같은 일부 경로 제약 조건을 만족시키는 것입니다. 그리고 이제 몇 가지 하위 목표가 있습니다. 예를 들어, 결국 대상을 잡고 싶습니다. 이러한 종류의 제약 최적화 관점의 중요한 특징은 이제 전역 제약 최적화 프레임워크를 사용하여 행동을 일시적으로 구성할 수 있다는 것입니다. 이제 목표가 접시를 집어 식기 건조대에 놓는 것이라고 말하면 여전히 동일한 경로 제약 조건 집합을 갖습니다. 예를 들어, 충돌을 피하고 싶습니다. 관절 제한 내에 머무르고 싶습니다. 저는 하나의 하위 목표를 가질 것입니다. 즉, 대상을 잡고 싶습니다. 또 다른 하위 목표는 접시가 건조대 위에 있는 것입니다. 따라서 이 문제는 약간 더 큰 제약 최적화 문제로 작성할 수 있습니다. 즉, 원래 상태 S가 주어지면 두 개의 궤적 T1과 T2를 찾고 싶습니다. 이는 내 궤적의 두 부분, 두 세그먼트에 해당하며, 또한 두 개의 상태 S1과 S2를 찾고 싶습니다. 일부 비용(이 경우 내 궤적의 전체 길이라고 가정하겠습니다)을 최소화하고 싶습니다. 그리고 “좋아, 물리적 역학에 종속되고 싶어”라고 말하고 싶습니다. S0에서 시작하는 T1을 실행하면 S1이 됩니다. S1에서 시작하는 T2를 실행하면 S2가 됩니다. 내 궤적에 대한 충돌 없는 제약 조건이 있습니다. 일부 하위 목표 제약 조건이 있습니다. S1에서 대상을 잡고 싶습니다. [알 수 없는 단어] T2를 통해 대상을 계속 잡고 싶습니다. 결국 물건을 건조대에 놓고 싶습니다. 따라서 여기에 쓰여진 모든 제약 조건을 살펴보면 세 그룹으로 분류할 수 있습니다. 우선 일부 역학 제약 조건이 있습니다. 이 특정 경우에는 강체 물리학뿐입니다. 또한 이 경우 로봇과 환경의 다른 물체 간의 충돌을 피하려고 시도하는 것과 같은 일부 다른 제약 조건(예: 기하학적 제약 조건)이 있습니다. “특정 위치에서 대상을 잡고 싶다”, “물건이 식기 건조대 위에 있어야 한다”와 같은 작업 관련 제약 조건과 같은 다른 제약 조건도 있습니다. 따라서 이러한 종류의 구성적 구조는 학습에 많은 이점을 제공합니다. 우선 이제 학습은 두 가지 다른 수준에서 발생할 수 있습니다. 특정 문제를 해결하기 위한 학습에서 먼저 어떤 제약 조건 집합에 종속되어야 하는지 학습할 수 있습니다. 그리고 둘째, 각 제약 조건에 대해 해당 제약 조건을 만족하는 값을 어떻게 생성할 수 있을까요? 그리고 둘째, 모든 개별 제약 조건을 데이터에서 모두 학습하는 데 실제로 의존할 필요가 없습니다. 일부 제약 조건의 경우 주로 인간이 구축한 물리적 모델에 의존할 수 있다고 말할 수 있습니다. 이 특정 경우에는 강체 물리학이 물리 시뮬레이터로 구현될 수 있다고 가정해 보겠습니다. 기하학적 제약 조건은 인간이 구축해 온 일부 모션 플래너로 구현될 수 있습니다. 그리고 데이터에서 추가 학습을 실제로 요구하는 것은 바로 이러한 모든 작업 관련 제약 조건입니다. 실제로 이러한 종류의 프레임워크를 보여주기 위해 하나의 예시 연구에 대해 이야기하겠습니다. 즉, 단 하나의 예에서 물건을 매달는 방법을 어떻게 학습할 수 있을까요? 예를 들어 옷걸이를 막대에 매달는 방법을 보여주는 참조 비디오가 있다고 가정해 보겠습니다. 이제 동일한 기술을 다른 물건(이 경우 머그컵)에 적용하고, 머그컵 걸이에 적용하고 싶습니다. 여기서 언급했듯이 만들어야 할 결정 변수가 많습니다. 그리고 잡는 자세, 매달는 자세, 그리고 움직임 궤적을 포함합니다. 그리고 그것들은 모두 서로 연결되어 있습니다. 따라서 이것은 그것들 모두 간에 공동 제약 조건이 있음을 의미합니다. 이 문제를 해결하려고 노력하면서 사람들은 많은 다른 기술을 개발하려고 노력해 왔습니다. 그중 하나는 모델 기반 계획이라고 합니다. 즉, 로봇과 대상 간에 발생할 수 있는 모든 가능한 접촉을 열거하려고 시도합니다. 예를 들어 대상을 잡는 다양한 방법을 생각해 보세요. 그리고 모든 다양한 위치(머그컵과 머그컵 걸이 사이에 어떤 종류의 손이 접촉할 수 있는지)를 생각해 보세요. 그리고 물리 시뮬레이터를 사용하여 성공 여부를 확인합니다. 물체는 일반적으로 매우 어렵고 매우 복잡한 기하학적 구조를 가지고 있기 때문에 이러한 종류의 접근 방식은 일반적으로 매우 느립니다. 이를 해결하기 위해 사람들은 비지도 학습 + 정책 학습과 같은 아이디어를 제안해 왔습니다. 그들이 하는 것은 많은 머그컵 데이터 세트를 기반으로 일부 특징 표현을 사전 훈련하는 것입니다. 이 특정 경우, 안토니오의 이 논문에서 그들은 다음과 같은 것을 하고 있습니다. 10만 개의 합성 머그컵 모양을 생성하고 그것을 기반으로 일부 표현을 훈련하고 있습니다. 그리고 매우 적은 예(예: 단일 샷 예)를 수집한 다음 머그컵의 시각적 표현을 사용하여 정책을 훈련하려고 시도합니다. 그리고 그들은 성공률이 42%인 것과 같은 일부 결과를 가지고 있습니다. 우리가 이야기했던 프레임워크를 사용하면 이제 학습 문제를 만족해야 할 제약 조건 집합을 학습하는 것과 이러한 제약 조건을 만족하는 값을 학습하는 두 부분으로 분해할 수 있습니다. 따라서 이러한 종류의 물리적 의사 결정 문제에서 따라야 할 제약 조건 집합은 기본적으로 로봇과 서로 다른 물체 쌍 사이에서 이루어지는 접촉 순서입니다. 그리고 여기서 값은 실제로 이러한 접촉을 어디에서 만들어야 하는가입니다. 즉, 접촉점입니다. 그리고 시각적 사전 훈련 모델을 사용하여 이러한 종류의 접촉점의 단일 샷 전이를 어떻게 달성할 수 있는지 보여드리겠습니다. 이것이 이러한 종류의 시스템이 실제로 적용되는 방식입니다. 우리는 새로운 장면에서 이러한 새로운 물체와 그것들을 인식하고 있습니다. 그리고 우리는 참조 비디오(이 경우 옷걸이를 막대에 매달는 것)를 가지고 있습니다. 그리고 RGBD 카메라를 사용하여 새로운 물체를 보고 있습니다. 따라서 우리는 그것의 3D 모양 표현을 얻습니다. 우리가 하는 것은 시각적 사전 훈련 특징을 사용하여 훈련 비디오(해당 참조 비디오)에서 발생하는 접촉점과 새로운 물체의 모든 점 사이의 해당 점을 찾으려고 시도하는 것입니다. 이 경우 히트 맵에서 강조 표시된 영역을 생각해 보세요. 그것들은 옷걸이와 막대 사이의 훈련 시간에 볼 수 있는 접촉점과 유사한 지역 기하학적 모양을 가진 영역을 강조 표시합니다. 그리고 여기서 우리는 매우 일반적인 시각적 사전 훈련 모델(이 경우 Dino V2)을 사용하여 그렇게 합니다. 따라서 이러한 종류의 시각적 특징은 실제로 매우 노이즈가 많습니다. 올바른 부분에 실제로 해당하지 않는 많은 영역이 강조 표시되는 것을 볼 수 있습니다. 그들은 매달기 동작을 수행할 것입니다. 따라서 우리가 하는 것은 물리 시뮬레이터를 사용하는 후속 모델 기반 계획의 지침으로 이러한 종류의 것을 사용하는 것입니다. 따라서 이러한 종류의 시스템은 해당 단일 예에서 일반화하여 다른 물체의 새로운 장면을 인식하고 동일한 기술을 해당 물체에 적용하려고 시도할 수 있습니다. 그리고 이 모든 것은 물체의 3D 재구성에 의존하므로 우리는 그것의 기하학적 모양을 얻을 수 있습니다. 그리고 둘째, 그것의 강체 역학을 시뮬레이션할 수 있도록 하는 비물리적 모델에 의존하므로 특정 매달기 동작이 안정적인지 여부를 테스트할 수 있습니다. 따라서 이러한 종류의 것은 다양한 종류의 머그컵이나 다양한 종류의 계량컵을 포함하여 모든 다양한 종류의 물체로 일반화할 수 있게 해줍니다. 이러한 종류의 시스템의 일반화 능력을 실제로 보여주기 위해 우리는 다양한 알파벳 모양의 데이터 세트를 선택했습니다. 그리고 여기에서 볼 수 있듯이 알고리즘은 알파벳 모양의 전체 모양에 따라 다른 잡는 자세, 다른 매달는 자세를 자동으로 선택하고 성공적으로 기계에 매달려고 시도합니다. 그리고 이러한 모든 종류의 것은 물체의 비물리적 모델을 필요로 하지 않습니다. 왜냐하면 3D 재구성을 사용하여 그것을 복구하고 물리 시뮬레이터를 사용하여 그것의 역학을 시뮬레이션할 수 있기 때문입니다. 그리고 이러한 것들은 사전 훈련된 비전 모델의 시각적 지침을 기반으로 빠르게 이루어집니다. 따라서 시각적 지침 없이 직접 정책 학습을 하는 경우와 같은 다른 대안적인 접근 방식과 비교한 결과가 있습니다. 그리고 단 하나의 데모만 있기 때문에 0%와 같은 결과를 얻습니다. 제가 정책 학습 프레임워크에 보여드린 시각적 대응 맵으로 시스템을 강화하면 성공률 측면에서 24%와 같이 약간 더 나은 정확도를 얻습니다.

그리고 저희 시스템은 전체 성공률 면에서 93%를 제공합니다. 여기서 아이디어는 모델 기반 계획 접근 방식의 지침으로 시각적 사전 훈련 모델을 사용하는 것입니다. 하지만 시각적 사전 훈련 특징이나 다른 종류의 데이터 기반 학습은 다른 방식으로도 도움이 될 수 있습니다. 예를 들어 물체의 물리적 역학을 정확히 모르는 시나리오에 직면했을 때입니다. 예를 들어 커피 머신을 작동시키려면 커피 머신의 손잡이 부분과 본체 사이의 기하학적 제약 조건을 이해해야 합니다. 이것은 우리가 모르는 것입니다. 직접 주석을 달 수 없습니다. 따라서 여기서 학습을 활용할 수 있습니다. 그리고 이 연구에서 우리는 이 특정 커피 머신을 작동하는 10개의 인간 비디오에서 손잡이 열기 동작에 대한 이러한 종류의 제약 조건을 학습하고, 다양한 배경 객체 집합을 가진 다양한 종류의 커피 머신으로 시스템을 일반화하는 방법을 보여줍니다. 그리고 다시 말하지만, 이 모든 시스템은 장면을 인식하는 것으로 시작합니다. 즉, 여러분이 관심을 갖는 객체가 어디에 있는지 지역화하려고 노력하고, 시각적 사전 훈련 특징을 사용하여 이 커피 머신을 여는 동작으로 일반화하는 데 도움을 받으려고 노력합니다. 그리고 이러한 모든 종류의 것들은 특정 커피 머신을 작동하는 10개의 예에서 학습하여 모든 다양한 종류의 시나리오로 일반화함으로써 이루어집니다. 따라서 이것은 강연의 이 부분에 대한 간략한 요약입니다. 여기서 저는 일반화 가능한 행동의 단일 샷 학습 또는 매우 적은 샷 학습에 대해 이야기합니다. 여기서의 장점은 정말로 하나 또는 몇 번의 데모에서 학습하고 다른 객체와 다른 종류의 환경으로 일반화할 수 있다는 것입니다. 그리고 여기서의 원리는 시각적 표현 학습과 물리 모델을 신경 기호 제약 최적화 프레임워크와 결합하는 것입니다. 여기서 신경망은 정확히 모델링하거나 물리 모델에서 분석적 형태로 작성하는 방법을 모르는 역학의 지침 또는 학습 부분 역할을 할 수 있습니다. 이러한 종류의 접근 방식을 통해 이제 ABC 집기 게임과 같이 이 문제를 생각하도록 동기를 부여했던 원래 문제에 대한 진전을 시작할 수 있습니다. 따라서 여기에서는 테이블 위의 물체를 두 개의 막대기로 회전시키고, 테이블 위의 물체를 테이블 옆으로 밀고, 들어 올리는 방법에 대한 기술당 하나의 데모를 로봇에게 가르치는 몇 가지 예시를 보여줍니다. 그러면 시스템은 이러한 기술을 새로운 방식으로 자동으로 일반화하고 구성하여 이 두 개의 막대기를 사용하여 테이블 위의 D 모양을 집는 실제 ABC 집기 게임을 해결할 수 있습니다. 따라서 이 특정 경우, 이것은 그들이 전에 본 적이 없는 물체입니다. 그리고 분명히 시스템은 접촉할 위치, 얼마나 회전시키고 싶은지, 얼마나 밀고 싶은지, 그리고 마지막으로 들어 올리는 것을 공동으로 최적화해야 합니다. 물론 이것은 여전히 변형 가능한 물체나 유체를 포함한 모든 다양한 종류의 물체를 조작하는 인간의 손재주와는 거리가 멉니다. 하지만 저는 이것이 물리적 행동의 일반화 및 구성 가능성을 처리하기 위해 확장될 수 있는 중요하고 유망한 프레임워크라고 믿습니다. 지금까지 저는 비교적 짧은 시간 범위의 기술을 학습하고 그것들을 새로운 방식으로 구성하여 새로운 문제를 해결하는 것에 대해 이야기했습니다. 다음으로, 이러한 종류의 프레임워크를 주방 청소 문제와 같이 비교적 긴 시간 범위의 계획 문제로 어떻게 확장할 수 있는지 이야기해 보겠습니다. 여기서 계획의 시간 범위는 몇 초에서 실제로 몇 분, 그리고 궁극적으로는 몇 시간이 될 수도 있습니다. 따라서 저는 우리가 가진 문제 설정에 대해 이야기하는 것으로 시작하겠습니다. 저희 시스템이 일부 인간이 수집한 로봇 궤적과 그에 대한 일부 언어 설명을 가지고 있다고 가정합니다. 이 경우 일부 데이터를 수집했다고 가정해 보겠습니다. 저희는 로봇을 움직이고 다양한 종류의 물체를 집어 조작하려고 [알 수 없는 단어]합니다. 이러한 종류의 궤적은 분할되고 “처음부터 두 번째까지 식기 세척용 액체를 잡고 있습니다”와 같은 일부 언어 및 설명으로 주석 처리된다고 가정합니다. 그리고 여기서부터 저기까지 식기 세척용 액체를 접시에 붓고 있습니다. 그리고 마지막으로 식기 세척용 액체를 다시 조리대에 놓습니다. 그리고 보이지 않는 상태와 전에 본 적 없는 새로운 목표에 대한 장기 계획을 세우는 것을 목표로 이러한 데이터에서 학습할 수 있는 시스템을 어떻게 구축할 수 있는지에 초점을 맞춥니다. 그게 무슨 의미일까요? 예를 들어 다른 초기 상태를 고려해 보겠습니다. 이 특정 경우에는 깨끗한 접시를 식기 건조대에 놓는 것이 목표입니다. 하지만 현재 접시에 식기 세척용 액체가 없고 수도꼭지는 이미 켜져 있습니다. 따라서 이것은 훈련 시간에 전에 본 적이 없는 시나리오입니다. 그리고 저희 시스템은 이러한 종류의 상태를 인식하고 필요한 행동을 생각할 수 있습니다. 예를 들어 씻기 전에 먼저 접시에 식기 세척용 액체를 부어야 합니다. 그리고 이 씻는 동작을 실행한 다음 식기 건조대에 다시 놓을 수 있습니다. 이러한 종류의 능력은 만약 여러분이… 아, 네. 청중: 접시가 제대로 씻긴 것 같지 않아요. 지아위안 마오: 아, 네, 맞아요. 네, 좋은 지적입니다. 네. 청중: 접시에 무슨 일이 일어나고 있는지 감지하지 못하거나 모르는 건가요? 아니면 뭐가 문제죠? 지아위안 마오: 이 특정 정책을 훈련하기 위해 아마 충분한 데이터를 수집하지 못하고 있다고 생각합니다. 왜냐하면 접시에 얼마나 많은 더러운 물건이 있는지, 그리고 시스템이 모든 다양한 종류의 시나리오에 완전히 일반화할 수 없도록 막는 것과 같은 것들을 무작위화해야 하기 때문입니다. 네. 하지만 시스템 자체는 실제로 그것을 인식합니다. 따라서 이론적으로는 가능합니다. 네. 그리고 이러한 종류의 능력은 부분 관찰 가능성에 대해 생각할 때도 중요합니다. 따라서 특정 시나리오에서 목표가 접시를 건조대에 놓고 조리대를 청소하는 것이라고 가정해 보겠습니다. 원래 조리대는 깨끗해 보입니다. 하지만 조리대에서 접시를 건조대로 옮기려고 시도한 후에는 테이블에 실제로 더러운 조각들이 있음을 알 수 있습니다. 따라서 이제 이것은 장면을 다시 인식하고 이 환경에서 해야 할 일을 생각할 것입니다. 특정 경우에는 천 조각을 사용하여 조리대를 청소합니다. 따라서 이 프레임워크의 전반적인 아이디어는 인간이 훈련 시간에 로봇에게 가르쳐 온 장기 계획을 이해하는 데 언어를 사용하는 것입니다. 따라서 저희가 하는 것은 이미지 및 행동 데이터와 언어 설명을 포함한 훈련 궤적을 살펴보고 그 주변에 신경 기호 개념 모델을 구축하려고 노력하는 학습 알고리즘을 개발하는 것입니다. 여기에는 여러분이 관심을 갖는 상태 특징, 데이터에서 그것들을 인식하는 방법이 포함됩니다. 그리고 전제 조건, 사후 조건, 그리고 제약 최적화 문제를 해결하여 제약 조건을 실행하는 방법을 포함하여 어떤 행동이 있는지 생각해 보세요. 따라서 먼저 원래 도메인에 대한 이러한 종류의 신경 기호 개념 표현을 이미 가지고 있다고 가정하고 시작하겠습니다. 그것을 사용하여 어떻게 계획을 세울 수 있을까요? 이제 환경이 있고 관찰할 수 있는 상태와 자연어 형식의 목표가 있다고 가정해 보겠습니다. 우리가 할 수 있는 첫 번째 일은 상태 특징 인식기를 사용하여 이 작업과 관련된 모든 상태 특징을 인식하는 것입니다. 여기에는 물체가 있음을 인식하는 것이 포함됩니다. 그리고 이것은 접시이고, 접시에는 비누가 없습니다. 그리고 수도꼭지는 아직 켜지지 않았습니다. 그리고 조리대도 있습니다. 그리고 물체는 조리대 가장자리에 있지 않습니다. 그러면 이것은 검색을 수행할 수 있는 추상적인 상태 표현을 형성합니다. 따라서 행동 모델을 통해 물리 세계에서 이 행동을 실행하기 전에 행동의 효과를 예측할 수 있다고 생각합니다. 이 특정 경우에는 비누 붓기 동작을 수행하고 싶다고 가정해 보겠습니다. 그러면 실행 후 물체 위에 비누가 있을 것입니다. 그리고 이것은 동일한 추상 상태 표현 공간에서 이 행동을 실행한 후의 새로운 상태에 대한 예측을 제공합니다. 다른 행동에 대해 유사한 작업을 수행할 수 있습니다. 이 경우 접시를 밀어냅니다. 그러면 다른 가능한 행동을 열거하고 그것의 효과가 무엇인지 생각해 볼 수 있습니다. 그리고 그것을 재귀적으로 수행할 수 있습니다. 따라서 이 원래 작업의 목표는 특정 상태에 대한 일부 논리적 진술로 번역될 수 있습니다. 이 경우 X가 접시이고 깨끗하며 Y가 식기 건조대이고 X가 Y 위에 있는 두 개의 물체 X와 Y를 찾고 싶습니다. 따라서 그것을 사용하여 해당 진술이 참인 상태를 산출하는 일련의 행동을 찾을 때까지 이러한 종류의 검색을 시도할 수 있습니다. 따라서 이러한 종류의 계획을 수행할 수 있는 모델을 얻기 위해 저희는 세 가지 다른 단계로 작동하는 학습 알고리즘을 가지고 있습니다. 첫 번째 단계는 대규모 언어 모델을 사용하여 저희가 가진 언어 주석을 기반으로 구조를 생성하는 것입니다. 기본적으로 이것을 코드 생성 절차로 생각합니다. 따라서 인간이 로봇에게 제공한 모든 언어 지침을 입력으로 받아 추적해야 할 중요한 특징과 환경에서 수행되는 모든 행동의 전제 조건 효과를 식별하려고 시도합니다. 대규모 언어 모델은 “비누가 있다” 또는 “가장자리에 있다” 또는 “씻기”라는 행동이 있다와 같이 인간이 이해할 수 있는 일부 형식으로 일부 코드를 작성할 수 있지만, 실제로 이러한 행동, 이러한 종류의 용어(“비누가 있다”가 무엇을 의미하는지 또는 “가장자리에 있다”가 무엇을 의미하는지)는 기계가 실제로 이해할 수 있는 것이 아니라는 점에 유의하는 것이 중요합니다. 따라서 이것은 시각적 인식 및 로봇 행동 데이터에 이러한 모든 행동 및 상태 특징을 연결하려고 시도하는 접지 문제를 해결해야 함을 의미합니다. 다시 말하지만, 저희는 두 단계로 그렇게 합니다. 첫 번째 단계는 행동 본체 부분을 학습하는 것입니다. 기본적으로 앞에서 이야기했던 방법 집합을 사용하여 만족해야 할 제약 조건은 무엇입니까? 서로 다른 물체 간에 발생하는 접촉을 식별하고, 접촉이 로봇 팔과 물체 사이에 있는 경우 해당 잡는 자세를 학습하고, 접촉이 물체와 다른 물체 사이에 있는 경우 배치 자세를 학습합니다. 그리고 어떤 경우에는 수도꼭지를 잠그는 것과 같은 궤적도 학습합니다. 다음 부분은 상태 특징을 학습하고 그 뒤에 있는 전환 모델을 이해하는 것입니다. 따라서 여기서는 특정 예를 제시합니다. 이것은 훈련 데이터에서 관찰한 상태 궤적입니다. 이전 상태, 이후 상태, 그리고 물체에 비누가 있었는지 여부와 같은 일부 주석이 있습니다. 그러면 나중에 깨끗해질 것입니다. 따라서 이제 작업은 “비누가 있다”가 정확히 무엇을 의미하는지 이해하는 것입니다. “깨끗하다”가 무엇을 의미하는지 이해하는 것입니다. 그리고 이것이 실제로 시각 질의 응답 설정에서 이전에 보았던 것과 동일한 문제이지만 시간 축으로 확장된 것임을 즉시 알 수 있습니다. 그것을 어떻게 할 수 있는지 간략히 요약하겠습니다. 저희는 우리가 관심을 갖는 물체에 대한 물체 분할을 가질 수 있습니다. 이 경우 접시라고 가정해 보겠습니다. 그러면 나중에 상태를 갖게 됩니다. “비누가 있다”와 “깨끗하다”라는 두 가지 개념과 관련된 두 개의 신경망이 있을 것입니다. 실행 전후의 특징 위에 그것들을 적용하면 일부 확률을 얻고 이 진술이 참인지 거짓인지 평가할 수 있습니다. 그리고 이 경우 이 특정 진술(만약 A라면 B)이 참일 확률은 B가 참이거나 A가 거짓일 확률로 계산할 수 있습니다. 이것은 예를 들어 0.98과 같은 점수를 제공합니다. 이것은 실제로 데모 궤적이므로 주어진 궤적에 대해 이 특정 전환 모델이 유지되어야 함(참이어야 함)을 실제로 알고 있습니다. 따라서 이 질문에 대한 정답 레이블로 참을 사용하고 “비누가 있다” 인식기와 “깨끗하다” 인식기의 가중치를 업데이트하기 위해 기울기 기반 업데이트를 시도할 수 있습니다. 행동 본체, 전제 조건, 효과 및 이러한 모든 상태 특징 인식기를 포함한 이러한 종류의 모델을 얻은 후에는 새로운 상태와 새로운 목표가 주어진 것과 같은 새로운 시나리오에서 그것들을 사용할 수 있습니다. 그리고 계획 알고리즘을 통해 수행할 로봇 행동을 얻을 수 있습니다. 이 특정 논문에서 저희가 이룬 또 다른 개선 사항은 모든 다양한 종류의 행동의 환경의 구성적 구조를 기반으로 근사 값 함수를 자동으로 계산하여 계획을 더 빠르게 만들 수 있음을 보여주는 것입니다. 이는 서로 다른 행동이 서로 어떻게 의존하는지 분석함으로써 가능합니다. 따라서 이러한 종류의 계산은 순수하게 이산적인 계획 문제에 대해서만 참이거나 작동할 수 있는 것으로 알려져 있습니다. 그리고 저희는 그것을 물체가 자세를 갖거나 잠재적인 신경망 특징을 갖는 것과 같은 연속적인 값의 상태로 확장할 수 있습니다. 이러한 종류의 장기 계획 문제에 대해 사람들이 생각했던 다른 접근 방식과 이것이 실제로 어떻게 비교될까요? 따라서 여기서 저희는 저희 프레임워크와 장기 계획을 위한 비전 언어 모델 기반 접근 방식을 비교하고 있습니다. 따라서 여기서 저희는 저희가 구축한 환경(다양한 종류의 물체가 있는 작은 끓는 물 도메인)을 사용하고 있습니다. 그리고 그렇게 하려면 주전자를 싱크대에 놓고 멀리 이동한 다음 수도꼭지의 헤드를 싱크대 쪽으로 이동해야 합니다. 그런 다음 수도꼭지를 켜고 꺼야 합니다. 그리고 아마도 현재 스토브에서 여러분을 막고 있는 다른 물체가 있을 것입니다. 주전자를 실제로 스토브에 놓기 전에 그것들을 치워야 합니다. 이러한 종류의 작업을 완수하는 접근 방식의 한 단계는 두 단계로 수행하는 것입니다. 현재 이미지 관찰과 언어 목표를 GPT-4o 또는 GPT-4V와 같은 비전 언어 모델에 제공합니다. 그러면 언어 조건부 로봇 정책에 의해 실행될 일부 언어 명령을 출력합니다. 그리고 여기서 비전 언어 모델의 과제는 우선 훈련 궤적을 직접 암기하는 경우 이전에 본 적 없는 새로운 상황에 직면하게 되므로 작동하지 않는다는 것입니다. 또한 최종 작업을 완수하려면 실제로 수십 단계가 필요하기 때문에 오류가 누적됩니다.

그리고 이것은 또한 여러분이 추론해야 합니다. 즉, 스토브 위에 있는 일부 물건과 같이 기하학적 제약 조건을 이해해야 합니다.

대조적으로 저희 모델은 계획 주도적인 접근 방식을 가지고 있습니다. 저희는 상태, 상태 추상화를 가지고 있으며, 그것은 플래너의 입력으로 사용되어 제어 명령을 출력합니다.

따라서 저희는 다음과 같은 설정에서 시스템을 체계적으로 평가하고 있습니다. 객체가 대략 같은 위치에 배치된 정확히 동일한 초기 상태에서 훈련 데이터를 수집하고 있습니다. 그리고 수도꼭지가 켜져 있는지 꺼져 있는지와 같은 모든 객체 상태는 정확히 동일한 상태에 있습니다.

그런 다음 이전에 본 적 없는 새로운 시나리오로 일반화합니다. 예를 들어 다른 위치에 객체가 있을 수도 있고, 수도꼭지가 다른 위치에 있을 수도 있고, 다른 상태를 가질 수도 있습니다. 실제로 엔드투엔드 성공률을 측정하면 그중 어느 것도 실제로 해결할 수 없습니다. 추가 미세 조정 없이 비전 언어 모델로는 여섯 가지 상황 중 어느 것도 해결할 수 없습니다.

그리고 저희 모델은 동일한 종류의 원리를 사용하지만, 대규모 언어 모델을 통합하여 상태 특징과 행동 관계의 이해를 분석하는 데 도움을 주고, 행동 및 상태 인식기에 대한 약간의 추가 학습을 수행함으로써, 이 특정 경우에는 100%의 성공률을 제공합니다. 저희가 테스트한 여섯 가지 경우 모두에서 작동합니다.

이 특정 부분에서는 신경 기호 개념을 사용하여 학습, 추론 및 계획을 수행할 수 있는 시스템을 구축하려고 노력하면서 언어, 비전 및 행동 데이터를 실제로 통합하는 방법을 보여줍니다.

전반적으로 저는 이러한 종류의 프레임워크가 훈련 데이터의 10%에서만 시각적 개념을 학습하거나 단일 또는 매우 적은 예에서 새로운 행동을 학습하는 것과 같이 더 데이터 효율적인 학습을 어떻게 가능하게 하는지 보여드렸습니다. 또한 다양한 종류의 객체 또는 보이지 않는 상태 또는 새로운 목표에 대해 더 강력한 일반화를 제공합니다.

하지만 지금까지 이러한 모든 종류의 것들은 여전히 특정하고 비교적 작은 도메인(이 특정 예에서는 특정 집 또는 특정 주방일 수도 있음)에서만 작동합니다.

따라서 앞으로 나아가려면 이러한 종류의 접근 방식을 추론 및 계획을 위한 기반 모델로 확장하는 방법을 정말로 생각해야 한다고 믿습니다. 그리고 이것은 제가 앞으로의 연구에서 하고 싶어하는 것입니다. 특히 추론 및 계획 목적을 위한 구성적 기반 모델을 위해 이 접근 방식을 구축하는 데 관심이 있습니다.

저희가 가진 원래 모델을 생각해 보면 특징과 행동 모델이 있습니다. 그리고 그중 일부는 객체의 상태를 인식하거나 관계를 식별하거나 특정 제약 조건을 만족하는 값을 찾으려고 시도하는 것과 같은 신경망과 관련이 있습니다. 이러한 종류의 시스템의 광범위한 적용 범위를 개선하려면 새로운 상황이 주어졌을 때 관심 있는 특징과 행동을 생성할 수 있는 모델 생성기가 필요하다고 믿습니다.

또한 더 넓은 범위에서 이러한 모든 종류의 인식 및 제약 조건 만족 문제 해결을 수행할 수 있어야 합니다. 제가 의미하는 바는, 환경에 어떤 종류의 객체가 있는지, 그리고 아마도 일부 인간 지침과 같은 컨텍스트를 입력으로 받아, 중요한 상태 특징과 이 특정 환경에서 생각해야 할 중요한 행동을 식별하는 데 도움이 되는 일부 모델이 필요하다는 것입니다. 그리고 또한 다양한 종류의 감각 입력과 인식하고 싶은 다양한 종류의 개념 또는 값을 찾고 싶은 개념을 받아들이는 범용 감지기 또는 관계 오류 인식기 또는 물리적 역학 모델을 가지고 싶습니다. 그리고 인식 문제에 대한 부울 값, 다양한 종류의 행동 목적을 위한 자세, 궤적 및 힘과 같은 다양한 종류의 것을 출력할 수 있어야 합니다.

특히 다양한 데이터 세트에서 이러한 종류의 모델을 훈련하기 위한 새로운 패러다임을 어떻게 구축할 수 있는지에 관심이 있습니다. 그중 일부는 이미지 전용 데이터에서 학습할 수 있습니다. 일부는 비디오 데이터에서 학습할 수 있습니다. 그리고 그중 일부는 객체 역학 또는 힘 정보가 필요한 것과 같은 로봇 행동 데이터를 실제로 수집해야 합니다.

제가 관심을 갖는 또 다른 것은, 준비된 상태에서 시작하여 기존 시스템의 역량을 실제로 확장할 수 있는 지속적인 학습 패러다임을 어떻게 구축할 수 있는지 생각해 보는 것입니다. 이것에 대해 생각하는 한 가지 방법은 기본적인 인식, 객체 추적 또는 기본적인 기술 집합을 수행할 수 있는 기본적인 기반 모델로 시작하는 것입니다. 하지만 제가 이야기했던 프레임워크를 사용하여 추론, 계획, 탐색을 통해 이러한 종류의 것들을 구성하여 새로운 경험을 얻을 수 있습니다. 그리고 이러한 종류의 새로운 실험은 다음 학습 반복을 위한 더 강력한 기반 모델을 학습하기 위한 데이터로 자연스럽게 사용될 수 있습니다. 그것은 다음 반복의 기반이 되어 훨씬 더 강력한 기반 모델을 얻을 수 있습니다. 따라서 이러한 종류의 것은 기존 기술을 구성하여 새로운 기술을 학습하는 것으로 상상할 수 있지만, 다음 번에는 그것에 대해 더 능숙해질 것입니다.

저는 이러한 종류의 학습 패러다임과 인간 인지 과학 사이의 유사점을 만들고 싶습니다. 인간 발달 인지 과학에서 사람들은 6개월 된 아기가 이미 매우 능숙한 사람들의 구성 요소 또는 것들에 대해 이야기합니다. 예를 들어, 그들은 물체에 대한 기본적인 이해를 가지고 있습니다. 그들은 공간에 대한 이해를 가지고 있습니다. 환경에는 다른 행위자가 있으며, 행위자는 자신의 믿음, 의도 및 목표를 가지고 있습니다. 그리고 논리 및 수론에 대한 기본적인 이해도 있습니다. 그리고 인간에게 중요한 다음 단계는 이러한 모든 종류의 핵심 지식을 기반으로 언어를 습득하는 것입니다. 하지만 인간으로서 우리가 할 수 있는 것은 그 이후에 많은 자기 탐색적 학습을 하는 것입니다. 새로운 기술을 배우고, 새로운 개념을 배우고, 심지어 스스로 새로운 개념을 발견하려고 노력하는 것입니다. 그리고 이것은 제가 앞으로 정말로 하고 싶은 한 가지입니다. 즉, 제가 해왔던 기존 연구의 성공을 기반으로 구축하려고 노력하는 것입니다.

제가 매우 관심을 갖는 또 다른 미래 방향은 지능의 공학 과학을 구축하는 것입니다. 이것은 두 가지 측면에 대한 질문에 답하는 것을 포함합니다. 첫 번째는 계산적 측면입니다. 신경망은 어느 정도까지 추론하고 계획할 수 있을까요? 그리고 구성성, 즉 이러한 인수분해 구조가 실제로 시스템의 전체 샘플 복잡성을 어떻게 개선할까요?

문제 분포 측면에서 저는 계획 문제의 실제 어려움을 어떻게 매개변수화할 수 있는지에 관심이 있습니다. 그리고 실제로 신경 기호 프레임워크는 이러한 종류의 질문에 대해 이야기하고 이러한 종류의 문제를 모델링하기 위한 해결책을 제시하는 많은 증거와 프레임워크를 제공합니다. 예를 들어 이러한 종류의 이산 논리적 추론 구조에 대해 이야기하면 과거에 저는 다음과 같은 질문을 연구하거나 답변해 왔습니다. 우선, 트랜스포머를 훈련시켜 이러한 종류의 작업을 수행할 수 있을까요? 2019년 초기 논문에서 우리는 이것이 실제로 가능하지만 트랜스포머의 계산 구조로 인해 특정 제한이 있음을 보여주었습니다. 그리고 최근에는 이러한 종류의 시스템을 훈련하는 데 얼마나 많은 데이터가 필요한지에 대한 진전을 시작했습니다. 그리고 더 최근에는 프로그램 분석을 통해 회로 복잡성을 매개변수화하고 실제 문제의 기호 구조를 이해하려고 노력하는 것에 관심이 있습니다. 그리고 그것과 실제 신경망 기반 학습 문제 사이의 연결을 구축하는 것에 관심이 있습니다. 여기서 원리는 기호를 사용하여 문제를 설명하고 계산을 설명한 다음 그것에 대한 이론을 개발하는 방법을 생각하는 것입니다.

그리고 앞으로 저는 이러한 종류의 결과를 불확실성 하에서의 추론 및 계획과 AI 정렬 문제에 대해 생각하는 연속 도메인으로 확장하는 것에 대해 매우 기대하고 있습니다.

마지막으로 인지 과학 목적을 위한 계산 모델을 구축하는 데에도 관심이 있습니다. 여기에는 인간이 데이터에서 구성적 구조를 어떻게 학습할 수 있는지, 인간이 실제로 구성적 구조를 활용하여 새로운 것을 빠르게 학습하는 방법과 같은 질문에 답하는 것이 포함됩니다. 과거에는 주로 구문 학습과 쓰기 시스템 구조 학습에 집중해 왔습니다. 그리고 다른 한편으로는 인간이 물리적 환경에서 어떻게 결정을 내릴 수 있는지에도 관심이 있습니다. 그리고 최근에는 인간 피험자에게 플레이하도록 요청하는 일부 물리 퍼즐 게임을 개발하고 이러한 종류의 게임을 플레이하는 행동을 모델링하려고 시도하고 있습니다. 그리고 그들이 기술을 어떻게 학습하는지, 그들의 학습된 기술이 단일 예에서 다양한 종류의 시나리오로 어떻게 일반화될 수 있는지에 관심이 있습니다. 그리고 여기서 우리는 인간 지능을 더 잘 이해하기 위한 제어 가능하고 해석 가능한 모델로 신경 기호 기술을 사용하고 있습니다. 그리고 앞으로 저는 인간 언어 습득, 언어 발생 및 진화, 그리고 인간 인지에서의 추상화 및 계획을 이해하는 데 이러한 종류의 접근 방식에 대해 매우 기대하고 있습니다.

만약 충분한 자원이 있다면 예를 들어 허스키가 이러한 종류의 물리적 환경에서 어떻게 결정을 내릴 수 있는지 확실히 이해하는 데에도 관심이 있습니다.

이 모든 것을 가지고 제가 이야기했던 제 연구에 대한 간략한 요약을 드리겠습니다. 저는 계산 복잡성, 샘플 복잡성 및 가변성에 대한 몇 가지 이론적 이해와 실제 문제의 어려움을 매개변수화하는 것으로 시작했습니다. 이러한 종류의 통찰력을 사용하여 추론, 제약 조건 해결 및 계획 목적을 위한 더 나은 알고리즘을 개발했습니다. 그리고 그것을 기반으로 시각 질의 응답, 물리 로봇의 행동 선택 및 인지 모델링을 위한 실제 시스템에 이러한 종류의 알고리즘을 배포했습니다. 그리고 이러한 종류의 실제 시스템 구축을 사용하여 그 주변에 더 관련성 있는 이론을 구축하는 데 정보를 제공했습니다. 저는 이것이 지능형 시스템 구축과 지능에 대한 우리의 이해(이론적 측면 또는 인지 과학적 측면에서) 사이를 연결하려고 시도하는 학계에서 실제로 할 수 있는 범용 지능 시스템 구축을 위한 새로운 베팅이라고 주장하고 싶습니다. 그리고 그들 사이의 다리를 놓으려고 노력합니다.

이 모든 것을 가지고 모든 자금 지원 기관, 산업 회사, 고문 및 협력자, 그리고 이 특정 강연에서 언급한 일부 작업에 기여한 모든 멘티에게 감사를 표합니다. 그리고 이 모든 것을 가지고 들어주신 모든 분들께 감사드립니다. 질문을 받겠습니다.

[박수갈채]

청중: 네.

신경 기호 AI에 대한 이전 연구가 많이 있습니다. 이것은 그것과 어떻게 관련됩니까?

지아위안 마오: 네, 우선 저희는 확실히 고전적인 신경 기호로부터 많은 영감을 받고 있습니다. 여기에는 여러분이 해오신 일부 연구도 포함됩니다. 예를 들어 확률적 논리, 그 형식주의를 공식화하려고 노력하는 데 초점을 맞추려고 노력합니다. 그리고 예를 들어 Prolog, Datalog, 이러한 종류의 형식주의의 많은 연구를 참고하여 전체를 이론적으로 건전하게 만들려고 노력합니다.

저희가 하는 추가적인 것은 현재 기술 시대에 할 수 있는 새로운 것이라고 생각합니다. 우선, 이제 더 나은 프로그래밍 합성 기술과 문제 구조 합성을 위한 더 많은 대규모 언어 모델 기반 기술이 있기 때문에 기호 모델을 구축하기 위한 더 나은 모델을 갖게 되었습니다. 처음부터 모든 것을 학습할 수 있을 뿐만 아니라요. 그리고 둘째, 제가 해온 많은 연구에 대해 생각하는 한 가지 방법은 이전의 모든 연구에서 영감을 얻어 딥 신경망이나 사전 훈련된 네트워크를 참신한 방식으로 사용하여 그 안의 특정 확률 분포를 매개변수화하는 방법을 생각하려고 노력하는 것입니다. 하지만 그것들을 옛날 AI 시대에 배포된 이론적 프레임워크에 함께 넣고 관심 있는 정상적인 문제를 해결하려고 노력합니다.

청중: 그렇다면 신경망을 사용하여 식별된 개념을 사용하는 기호 계층을 갖는 것이 두 가지를 결합하는 최선의 접근 방식이라고 생각하십니까?

지아위안 마오: 개인적으로는 두 가지 이유로 그렇게 믿는다고 말씀드리고 싶습니다. 첫 번째는 모든 실제 문제를 생각해 보면 기본 문제에는 일부 구조가 있다는 것입니다. 예를 들어 물리적 환경에서 우리는 물리적 역학으로 인해 전환 모델에 자연스럽게 희소성을 갖습니다. 그리고 그러한 종류의 희소성과 인수분해 구조를 활용하는 가장 좋은 방법은 모든 저수준 세부 정보를 포착하는 일부 신경망 위에 일종의 기호 계층을 구축하는 것입니다.

데이터 사용 관점에서 볼 때 언어 데이터를 사용하여 일부 고수준 구조를 제안하고 다른 시각적으로 접지된 또는 행동 데이터를 사용하여 모든 세부 정보를 파악하려고 노력하는 것이 좋은 사용 방법이라고 생각합니다. 따라서 이것은 자연스러운 인수분해라고 할 수 있습니다. 데이터 사용을 자연스럽게 인수분해합니다. 따라서 이러한 관점에서 이것이 올바른 방향이라고 믿습니다.

진행자: 다른 분 질문 있으신가요? 녹음을 위한 것입니다.

[목소리 겹침]

청중: 네, 그럼 좋은 질문 하나 하겠습니다. 네.

초반 예시에서 많은 부분이 이미지나 그에 대한 질문에 답하는 것과 같았습니다. 하지만 제 이해로는 텍스트에 대한 질문을 하고 싶다면 기호 AI가 필요하지 않습니다. 큰 트랜스포머를 훈련시키면 됩니다. 그렇다면 이러한 도메인에서 이러한 종류의 더 복잡한 기호 기술이 필요한 이유는 무엇입니까?

지아위안 마오: 근본적인 문제는… 알겠습니다.

우선 근본적인 문제는 역학적, 물리적 역학 시스템을 갖는 로봇을 포함한 특정 도메인의 경우 좋은 양의 데이터를 수집하는 것이 일반적으로 매우 어렵다는 것입니다. 그리고 불확실성이 있고 환경에서 탐색을 어떻게 수행할지 등을 생각하고 싶을 때는 훨씬 더 어렵습니다. 따라서 모델 기반 접근 방식이 더 관련성이 높다고 생각합니다. 그리고 두 번째 이유는, 실제로 많은 데이터를 수집할 수 있다면 학습만으로 많은 것을 해결할 수 있지만, 그것을 생성하는 한 가지 방법은 이러한 종류의 기호 모델을 사용하여 질문에 답변하는 방법에 대한 가능한 추론 사슬을 합성하는 것이라고 생각합니다.

예를 들어, 여기 있는 란제이는 그러한 프로그래밍 방식 실행을 대규모 비전 언어 모델에 증류하여 작업을 수행하는 것에 대한 연구를 하고 있습니다. 하지만 제 생각에는 그것이 가장 효율적인 방법인지가 문제입니다. 실제 관점에서 볼 때, 특히 로봇 공학에서는 많은 문제가 매우 어렵습니다. 때로는 훈련 시간에 해결책을 찾는 것조차 매우 어렵습니다. 그리고 둘째, 그것들은 정말로 매우 다양합니다. 이것은 적어도 제가 믿기로는 공장에서 로봇이 훈련 시간에 만날 수 있는 모든 가능한 문제를 열거하고 명시적 데이터로 시스템을 훈련시키는 것이 아마도 가장 효율적인 방법은 아닐 것이라는 것을 의미합니다. 그래서 우리는 훈련 시간에 무엇을 하고 싶은지, 그리고 아마도 테스트 시간에도 약간의 테스트 시간 추론을 수행하여 시스템을 증강하는 것을 생각해야 합니다.

청중: 당신의 전제는 훌륭합니다. [알 수 없는 단어] 이해하기 위해. [알 수 없는 단어] 수많은 예가 있습니다.

청중: 음, 그리고 아마존 광고 문구를 생성하는 데는 “괜찮아”와 같은 텍스트가 충분할 수도 있지만, 아마도 그렇지 않을 수도 있습니다. 하지만 아마도 [알 수 없는 단어]에는 충분하지 않을 것입니다.

청중: 광고 문구 생성은 실제로 매우 미묘한…

청중: 알아요, 알아요. [웃음] 알아요, 빈정거리는 거예요. 하지만 물건을 집는 것이 훨씬 더 어려운 것 같습니다.

청중: 해결되지는 않았지만 꽤 괜찮죠?

청중: 환각에 괜찮다면, 그리고 꾸며내는 것에 괜찮다면…

청중: 네.

진행자: 발표자에게 질문 있으신가요?

청중: 안녕하세요, 발표 감사합니다. 그리고 신경망이 설계된 분할 방식과 전문가 혼합 모델 간의 연결을 보시는지, 그리고 거기에 더 깊은 연결이 있다고 생각하시는지 궁금했습니다.

지아위안 마오: 죄송합니다. 어떤 모델에 대해 말씀하시는 건가요?

청중: 전문가 혼합 모델.

지아위안 마오: 아, 알겠습니다. 알겠습니다. 네, 정말 흥미롭네요. 아마도 그러한 종류의 것들(별도의 신경망을 사용하여 작업을 수행하는 것) 사이의 더 깊은 연결 중 하나는 모델 병합이라고 생각합니다. 기본적으로 정말로 하고 싶은 것은 개별 작업을 수행하려고 개별 신경망을 훈련시킨 후, 모든 모델을 약간 더 큰 모델로 병합하거나 압축하여 더 나은 일반화를 위해 다양한 작업에서 데이터를 활용할 수 있도록 하는 것입니다. 그래서 그것이 지속적인 학습 상황에서 해야 할 중요한 일이라고 생각합니다. 그리고 그것은 여전히 연구의 최전선에 있다고 말씀드리고 싶습니다. 즉, 그것을 어떻게, 어떤 빈도로 수행할 수 있는지입니다. 재앙적 망각과 같은 문제를 겪지 않도록 모델 병합을 실제로 어떻게 수행할 수 있는지입니다. 그리고 거기에 많은 관심이 있다고 생각합니다. 네.

청중: 안녕하세요, 신경망 아키텍처에 대한 질문이 있습니다. 신경과학에서는 다양한 신경 회로와 식별 또는 수행과 관련된 뇌의 다양한 부분에 대한 이해가 깊어지고 있습니다. 따라서 신경과학의 발견으로부터 전문가 혼합 모델이나 분할된 신경망과 같은 아키텍처를 결정하는 방법에 영향을 미쳤습니까? 그렇다면 어떻게 영향을 미쳤습니까?

지아위안 마오: 네, 제가 주로 영감을 받은 것은 주로 인지 과학이라고 말씀드리고 싶습니다. 하지만 최근에는 계산 인지 과학과 인지 신경과학 사이에서 많은 좋은 흥미로운 연결을 보고 있습니다. 최근 신경과학 연구에서 사람들이 보는 중요한 것 중 하나는 사람들이 문제를 해결하려고 할 때, 문제 자체가 언어로 설명되어 있더라도 실제로 문제를 해결하려고 뇌의 언어 영역을 반드시 사용하는 것은 아니라는 것입니다. 대신 뇌의 다른 영역이 활성화됩니다. 이것은 예를 들어 질문에 숫자 또는 물리적 상황에 대한 추론이 포함되어 있는 경우 특히 그렇습니다. 예를 들어 “이것이 주방이라고 상상해 보세요. 거기서 무엇을 할까요?”와 같이 질문하면 언어 영역이 아닌 다른 종류의 영역이 활성화되는 것을 볼 수 있습니다. 따라서 이것은 어느 정도 언어가 정확히… 이것은 신경 회로 수준이 아닌 매우 거친 fMRI 수준 연구에 기반한 것입니다. 하지만 몇 가지 흥미로운 점이 있습니다. 사람들은 아마도 언어가 정확히 방법이 아닐 수도 있다고 생각하기 시작합니다. 즉, 인간의 자연스러운 구어 언어가 사람들이 생각을 구조화하는 방법이 아닐 수도 있습니다. 대신 인간 언어와 연결된 일종의 언어와 같은 다른 종류의 것이 있습니다. 그것들 사이에서 번역할 수 있습니다. 그리고 또한 물리적 시뮬레이션을 수행하고, 계획을 세우고, 이전의 일화적 기억, 정보 등을 검색할 수 있는 것과 같이 뇌의 다른 영역과 연결됩니다. 따라서 최근에 얻은 매우 흥미로운 발견이라고 생각합니다. 그리고 그것은 분명히 여기서 일부 설계를 동기 부여합니다. 예를 들어 개념은 언어 공간에 실제로 존재하는 것이 아니라 실제로 말할 수 있는 것, 볼 수 있는 것, 그리고 행동할 수 있는 것입니다.

청중: 감사합니다.

청중: 이러한 신경 기호적인 것들에서 오류가 어떻게 구성될 수 있는지 조금 설명해 주시겠습니까? 그것은 모든 것을 이러한 명제로 분해하는 것일 텐데요. 그것이 일부 문제에서 폭발할까 봐 걱정됩니다. 장기 계획 문제에서 이것에 대해 조금 논의하셨습니다. 하지만 그냥… 네, 그것에 대해 조금 설명해 주시면 정말 감사하겠습니다.

지아위안 마오: 네, 개인적으로 두 가지 견해가 있다고 생각합니다. 첫 번째는 계산을 구조화하기 위해 이러한 종류의 신경 기호를 사용하더라도 전체 시스템이 엔드투엔드 최적화 가능하도록 해야 한다고 생각합니다. 즉, 특정 시각 질의 응답의 경우 이러한 모든 신경망을 구성하더라도 별도로 훈련하는 것이 아니라 입력 및 출력 데이터에서 엔드투엔드로 훈련합니다. 그리고 로봇 공학 계획 문제에서도 유사한 작업을 수행합니다. 그것은 어느 정도 오류 축적량을 줄이는 데 도움이 됩니다. 모든 모듈이 공동으로 최적화되기 때문입니다. 두 번째는 매우 흥미롭다고 생각하는 것입니다. 저는 연구하고 구축하는 데 매우 관심이 있습니다. 즉, 이러한 개별 모듈이 예측에 대한 자체 불확실성을 유지하고 이러한 종류의 불확실성에 대해 추론할 수 있도록 하는 것입니다. 실제로는 많은 작업을 수행하는 데 매우 정확한 물리 모델이 필요하지 않기 때문입니다. 제어 분야에서 사람들은 다층 시스템에 대해 이야기합니다. 높은 수준에서는 비교적 거친 모델이 필요합니다. 낮은 수준에서는 더 세밀한 모델 등이 필요합니다. 그리고 불확실성을 실제로 모델링하고 정확하게 모델링한 다음 그것들이 어떻게 전파되는지, 예측에서 필요한 정밀도 수준에 대해 어떻게 추론하는지를 생각하는 것이 우리가 해야 할 일이라고 생각합니다.

청중: 첫 번째 예는 모든 것을 엔드투엔드로 훈련시키는 것입니다. 제 주요 우려는 전이 가능성일 것입니다. 왜냐하면…

지아위안 마오: 네.

청중: 네, 알겠습니다. 멋지네요.

지아위안 마오: 네, 네.

진행자: 좋습니다.

청중: 죄송합니다. 엔드투엔드 최적화를 할 때 구성성을 잃지 않나요?

청중: 네, 비슷한 종류의 것입니다.

지아위안 마오: 식별 가능성 문제가 있는 것 같습니다. 어느 정도까지… 만약 모든 장소가 카운터 위에 있다면, 엔드투엔드로 최적화하면 장소를 인식할 때 객체가 카운터 위에 있다는 사실에 크게 의존할 것입니다. 하지만 다른 위치에 장소가 있는 교차 상황 데이터가 있다면 이것이 그 문제를 약간 해결하는 데 도움이 될 것입니다. 네.

진행자: 질문은 충분했던 것 같습니다. 그럼 다시 한번 발표자께 감사드립니다.

지아위안 마오: 감사합니다.

Computer Science Seminar Series

March 27, 2025

“Learning, Reasoning, and Planning with Neuro-Symbolic Concepts”
Jiayuan Mao, Massachusetts Institute of Technology

Abstract

Jiayuan Mao aims to build complete intelligent agents that can continually learn, reason, and plan—that is, answer queries, infer human intentions, and make long-horizon plans spanning hours to days. In this talk, Mao will describe a general learning and reasoning framework based on neuro-symbolic concepts. Drawing inspiration from theories and studies in cognitive science, neuro-symbolic concepts serve as compositional abstractions of the physical world, representing object properties, relations, and actions. These concepts can be combinatorially reused in flexible and novel ways. Technically, each neuro-symbolic concept is represented as a combination of symbolic programs, which define how concepts can be structurally combined (similar to the ways that words form sentences in human language), and modular neural networks, which ground concept names in sensory inputs and agent actions. Mao shows that systems that leverage neuro-symbolic concepts demonstrate superior data efficiency, enable agents to reason and plan more quickly, and achieve strong generalization in novel situations and for novel goals. This is illustrated in visual reasoning in 2D, 3D, motion, and video data, as well as in diverse decision-making tasks spanning virtual agents and real-world robotic manipulation.

Jiayuan Mao is a PhD student at the Massachusetts Institute of Technology, where she is advised by Professors Josh Tenenbaum and Leslie Kaelbling. Mao’s research agenda is to build machines that can continually learn concepts (e.g., properties, relations, rules, and skills) from their experiences and apply them for reasoning and planning in the physical world. Her research topics include visual reasoning, robotic manipulation, scene and activity understanding, and language acquisition. She was named a 2024 Rising Star in Electrical Engineering and Computer Science and in Generative AI. Her research has received Best Paper Awards at the 2024 Meeting of the Cognitive Science Society, the 2024 Southern California Natural Language Processing Symposium, and the 2024 Workshop on Language and Robot Learning at the Conference on Robot Learning, as well as a best paper nomination at the 2019 Meeting of the Association for Computational Linguistics.

Stop Thinking, Just Do!