What is the “Meta” in Metacognition? (Andrea Stocco, METACOG-25 Keynote)
Abstract
Andrea Stocco (UW) gave an excellent keynote at the Second Workshop on Metacognitive Prediction of AI Behavior (METACOG-25). See the full program here: https://neurosymbolic.asu.edu/metacog-25-may-2025/
주요 발표자인 안드레아 스토코는 거대 언어 모델(LLM)에서 나타나는 환각과 비합리적 반응과 인간의 사고 과정과의 차이점을 논하면서 강연을 시작합니다. 그는 인간의 메타인지, 특히 자동적이고 직관적인 메타인지와 의도적이고 체계적인 메타인지를 구분하는 데 중점을 둡니다. 그는 fMRI 연구 메타 분석을 통해 자동적 메타인지가 뇌의 특정 네트워크, 특히 뇌섬엽과 내측 전두엽 피질과 관련이 있음을 보여줍니다. 이러한 뇌 영역은 내부 상태, 살성 및 원근법과 관련이 있으며, 이는 자동적 메타인지가 우리 자신의 내적 과정에 대한 인식을 기반으로 할 수 있음을 시사합니다. 스토코는 또한 공통 모델 인식과 같은 인지 아키텍처가 이러한 자동적 메타인지 메커니즘을 이해하는 데 중요하며, 다양한 시스템 아키텍처는 서로 다른 형태의 메타인지 능력을 제공할 수 있음을 시사합니다.
자동 메타인지적 경험
자동 메타인지적 경험 또는 자동 메타인지적 트리거가 뇌의 특정 네트워크와 관련이 있다는 내용이 논의되었습니다.
강연자는 자동 메타인지적 트리거의 예시로 다음과 같은 네 가지 현상을 들었습니다:
- 인지 감각(Feeling of knowing) / 설단 현상(Tip of the tongue) / 데자뷔(Deja vu)
- 의사결정 신뢰도(Decision confidence)
- 반응 충돌 감각(Sense of response conflict)
- 기대 위반(Violation of expectations)
이러한 자동 메타인지 현상과 관련된 뇌 활동을 조사하기 위해 메타 분석이 수행되었습니다. 연구 결과, 이러한 현상들은 일관되게 특정 뇌 영역의 활성화 및 동원과 관련이 있는 것으로 나타났습니다.
메타 분석에서 공통적으로 나타난 세 가지 주요 뇌 영역은 다음과 같습니다:
- 좌우 뇌섬엽(left and right insula)
- 내측 전두엽 피질(medial frontal cortex)
이 영역들은 기존 문헌에서 현저성 네트워크(salience network) 또는 “penta attention network”으로 알려져 있습니다. 이 네트워크는 내부 상태에 대한 주의, 통증, 내수용 감각(자신의 심장 박동을 인지하는 능력), 자동적인 관점 취하기 등과 관련이 있다고 언급되었습니다.
강연자는 이 네트워크가 인지 아키텍처 내에서 장기 기억, 작업 기억, 절차 기억 영역 사이에 전략적으로 위치하며, 이는 메타 정보를 의도적인 주기 엔진이나 전역 작업 공간에 제공하는 데 매우 적합할 수 있다고 제안했습니다.
따라서 제공된 자료는 자동 메타인지적 경험, 즉 자동 메타인지적 트리거가 뇌의 특정 네트워크, 특히 좌우 뇌섬엽과 내측 전두엽 피질로 구성된 현저성 네트워크와 깊이 연관되어 있음을 시사합니다.
지능 시스템 아키텍처
다양한 지능 시스템 아키텍처는 메타인지 능력에 상당한 영향을 미칩니다.
- 메타인지는 특히 자동적인 형태의 경우, 행동을 생성하는 시스템의 기저 아키텍처 구조와 깊이 연결되어 있습니다. 이는 다른 아키텍처가 아마도 다른 형태의 메타인지 능력을 허용하고 다른 시스템을 요구할 것임을 의미합니다. 따라서 메타인지는 트랜스포머 기반 시스템과 다른 아키텍처(예: 힌튼의 캡슐 기반 시스템)에서는 매우 다르게 보일 것입니다.
- 다른 아키텍처는 자동적인 메타인지를 위한 다른 접점을 제공합니다. 예를 들어, CNN 아키텍처는 최상위 레벨의 범주형 결과에서 측정값을 추출하여 응답 분포를 평가하는 등 메타인지적 성찰을 위한 명확한 접점을 제공합니다.
- 반면, 트랜스포머 아키텍처에서는 출력이 토큰 또는 일련의 토큰이기 때문에 메타인지적 성찰이 어렵습니다. 이는 명확한 행동이나 지식에 자연스럽게 연결되지 않으며, 메타인지 정보 추출이 쉬운 특정 부분을 지목하기 어려운 피드포워드 네트워크이기 때문입니다. 소스는 인간 두뇌의 메타인지 정보가 트랜스포머에서 추출될 수 있는 것과는 근본적으로 다르다고 제안합니다.
- 인간 두뇌에 적용될 수 있다고 여겨지는 인지의 공통 모델(Common Model of Cognition) 아키텍처 내에서 자동적인 메타인지 네트워크(insula, medial frontal cortex)는 다른 모듈(장기 절차 기억, 장기 선언적 기억, 작업 기억 등) 사이의 빈 공간에 전략적으로 위치하며, 작업 기억/고의적 주기 엔진에 메타 정보를 제공하는 역할을 할 수 있습니다. 이러한 아키텍처 특정적인 발견은 다른 아키텍처에는 적용되지 않을 수 있는 메타인지의 통합 방식을 시사합니다.
- 소스에서 언급된 대규모 언어 모델(LLM)은 종종 트랜스포머에 기반하며, 잘못된 믿음 테스트와 같은 겉보기에 메타인지적인 테스트를 통과할 수 있음에도 불구하고 환각이나 관점 취하기 오류와 같은 문제를 보입니다. 이는 그들의 기저 아키텍처가 인간에서 발견되는 자동적인 메타인지 과정, 예를 들어 어려운 관점 취하기 작업 중 인간이 보이는 일시 정지 현상과 같은 것을 지원하지 않을 수 있음을 시사합니다.
결론적으로, 지능 시스템의 기저 아키텍처는 메타인지 능력, 특히 자동적인 트리거와 메타 정보에 얼마나 쉽게 접근하거나 생성할 수 있는지에 중요한 영향을 미치며, 다른 아키텍처는 다른 형태의 메타인지 능력을 가능하게 합니다.
인간의 메타인지 능력과 AI의 메타인지 능력
인간의 메타인지 능력과 AI의 메타인지 능력 사이에는 몇 가지 중요한 차이점이 있습니다. 이러한 차이는 주로 그 밑에 있는 아키텍처와 내면 과정에 대한 접근 방식과 관련이 있습니다.
소스에서는 메타인지 능력을 의도적 메타인지(deliberitive metacognition)와 자동적 메타인지(automatic metacognition)로 구분하는 분류 체계를 제시합니다.
- 의도적 메타인지는 체계적인 분석과 같은 시스템 2 유형의 사고와 유사하며, 문제를 감지하고 추가적인 지식을 통해 해결하는 과정입니다. 에이전트가 쉽게 설명할 수 있고 통제 가능합니다.
- 자동적 메타인지는 “우리의 뇌의 내면 세계나 마음이 생각하는 방식에 노출되는 순간”으로 설명됩니다. 이는 마치 불안감(unease), 놀라움(surprise)과 같은 느낌으로 나타나며, 내면의 과정에 대한 일종의 지각입니다. 이러한 지각은 의도적 메타인지적 추론을 위한 방아쇠(trigger) 역할을 할 만큼 충분히 의식적으로 인지될 수 있습니다.
인간의 자동적 메타인지는 뇌의 특정 영역 네트워크와 깊이 연관되어 있습니다. 소스에서 여러 연구의 메타 분석을 통해 밝혀낸 이 영역 네트워크는 좌우 섬엽(insula)과 내측 전두엽 피질(medial frontal cortex)을 포함하며, 이러한 영역들은 주목 네트워크(salience network)로 알려져 있고, 내부 상태 감지(interoception)와 관련이 있습니다. 인간의 자동적 메타인지 방아쇠는 본질적으로 자신 내면의 과정에 대한 일종의 지각이며, 이는 기초적인 아키텍처가 드러나는 몇 안 되는 부분입니다.
소스에서는 대규모 언어 모델(LLM)과 같은 현재의 AI 시스템이 인간의 자동적 메타인지와 관련된 특정 유형의 과제에서 어려움을 겪는다고 지적합니다.
- AI는 논리적이지 않거나 말도 안 되는 정보(“vegetative electro microscopy”와 같은)를 생성하는 환각(hallucinations)을 일으킬 수 있으며, 인간이라면 쉽게 감지할 수 있는 명백한 오류를 알아차리지 못할 수 있습니다.
- AI는 다른 사람의 관점(perspective)을 취하는 과제에서 체계적인 오류를 보이는 경향이 있었습니다. 인간은 이러한 어려운 상황에서 답변하기 전에 멈칫(pause)하는 시간을 보이는 반면, 트랜스포머 기반 모델에서는 동일한 과정이 작동하지 않는 것으로 나타났습니다.
- AI 모델은 4-5세가 되어야 인간이 통과하는 종류의 오신념 과제(false belief task)를 통과할 수 있지만, 이는 관점 취하기에 필요한 계산적 단계의 신중한 분석을 통해 이루어지는 의도적 메타인지와 더 관련이 있을 수 있습니다.
소스는 메타인지가 시스템의 근본적인 아키텍처와 깊이 연결되어 있기 때문에, 다른 아키텍처는 다른 형태의 메타인지 능력을 가질 수 있다고 제안합니다. 인간 뇌의 아키텍처(Common Model of Cognition)는 장기 기억, 작업 기억, 절차 기억 영역 사이에 전략적으로 위치한 특정 영역 네트워크를 통해 자동적 메타 정보를 제공하는 것으로 보입니다. 하지만 트랜스포머와 같은 현재의 AI 아키텍처는 출력이 토큰이나 토큰의 순서이며 내부 계산 과정에 대한 명확한 접점이 부족하여, 인간과 같은 방식으로 내면 과정의 ‘지각’에 기반한 자동적 메타인지 방아쇠를 생성하기 어렵습니다. 소스는 AI가 “고통을 느끼게(feel the pain)” 하는 방식, 즉 내부 경험을 할 수 있게 하면 정렬 문제를 해결하고 메타인지적 성찰을 유발할 수 있을지도 모른다고 비유적으로 언급합니다.
요약하자면, 소스에 따르면 인간의 자동적 메타인지는 내면의 과정과 신체 상태를 감지하는 특정 뇌 아키텍처와 기능에 기반하고 있습니다. 현재의 AI 아키텍처, 특히 트랜스포머 모델은 이러한 유형의 내면 경험이나 근본적인 계산 과정에 대한 접근성이 부족하여 환각이나 관점 오류와 같은 특정 유형의 메타인지적 실패를 경험할 수 있습니다. 메타인지 능력은 아키텍처에 따라 다르게 나타날 수 있으며, 현재 AI 모델은 인간의 자동적 메타인지와 같은 방식으로 작동하지 않는 것으로 보입니다.
자동 메타인지 현상
자동 메타인지 현상으로 제시된 네 가지는 다음과 같습니다:
- 인지 감각 (Feeling of knowing) / 설단 현상 (Tip of the tongue) / 데자뷔 (Deja vu): 무언가를 기억하고 있다는 느낌, 또는 기억은 나지 않지만 알 것 같은 느낌과 관련된 현상입니다. 사람들은 답을 실제로 떠올리기 전에 답을 알 것 같다는 느낌을 매우 빠르게 인지하며, 자신의 기억에 대해 높은 수준의 알파 역량을 가집니다.
- 의사결정 신뢰도 (Decision confidence): 결정에 대해 얼마나 확신하는지에 대한 감각입니다. 사람들은 명확한 사전 지식이나 정보가 많지 않더라도 자신의 결정에 대해 좋은 직감(gut feeling)을 가지는 경우가 많으며, 심지어 극도의 불확실성 조건에서도 자신의 수행 능력이 얼마나 좋을지 판단하는 데 상당히 정확할 수 있습니다.
- 반응 충돌 감각 (Sense of response conflict): 내면에서 충돌하는 반응이 있을 때 느끼는 감각입니다. 스트룹 과제(Stroop task)와 같은 상황에서 단어와 색상이 일치하지 않을 때 반응 속도가 느려지는 것처럼, 실수할 것 같다는 내면의 감각이 수백 밀리초 전에 나타나 의도적인 메타인지적 전략(예: 속도 늦추기, 다시 생각하기)을 유발합니다.
- 기대 위반 (Violation of expectations): 기대했던 것과 다른 상황이 발생했을 때 나타나는 현상입니다. 이는 과제를 수행할 자원이 부족하다고 느끼거나 다른 방식으로 생각해야 할 필요성을 인지하는 것과 관련될 수 있습니다. 예를 들어, 복잡한 계산이 필요하다는 것을 인지하고 즉시 계산하는 대신 다른 추론 방식을 선택하게 만드는 방아쇠(trigger) 역할을 합니다.
강연자는 이러한 네 가지 현상이 서로 다른 심리학 분야에서 연구되어 왔지만, 자동 메타인지의 일부로 함께 고려될 수 있다고 제안했습니다. 이러한 자동 메타인지는 종종 내면의 과정이나 마음의 상태가 드러나는 순간으로 묘사되며, 불안감이나 놀라움과 같은 느낌으로 나타나 의도적인 메타인지적 추론을 위한 방아쇠 역할을 할 수 있습니다.
Metacognitive Experience
교육 심리학자인 플라벨(Flavell)은 메타인지를 크게 두 가지 측면으로 구분했습니다. 하나는 메타인지 지식(metacognitive knowledge)이고, 다른 하나는 메타인지 경험(metacognitive experience)입니다.
플라벨의 분류에서 메타인지 경험은 다음과 같이 설명됩니다.
- 이는 어떤 “느낌(feeling)”과 같은 것입니다. 예를 들어, “잠깐, 뭔가 잘못되었어. 질문은 알겠는데 이 데이터는 내가 아는 게 아니야”와 같은 느낌입니다.
- 강연자는 메타인지 경험을 설명하며, 이를 “자동적 메타인지(automatic metacognition)“라고 부르기도 합니다. 이는 복잡한 분석이나 통제 가능한 과정이라기보다는, 우리 뇌의 내면 세계나 마음이 생각하는 방식에 노출되는 순간을 의미합니다.
- 자동적 메타인지는 불안감(unease)이나 놀라움(surprise)과 같은 감각으로 나타날 수 있습니다. 내면에서 상충하는 답변이 있을 때 느끼는 불안감이나, 예상치 못한 상황에서 느끼는 놀라움 등이 이에 해당합니다.
- 이러한 감각은 자신의 내면 과정에 대한 일종의 지각(perception)이며, 이 지각은 충분히 의식적으로 인지되어 의도적인 메타인지적 추론을 위한 방아쇠(trigger) 역할을 할 수 있습니다.
요약하자면, 플라벨의 분류에서 메타인지 경험은 자신의 인지 상태나 과정에 대해 느끼는 즉각적인 감각이나 느낌을 의미하며, 이는 강연자가 설명하는 자동적 메타인지와 밀접하게 연결되어 있고, 때로는 의도적인 사고 과정을 촉발하는 시작점이 됩니다.
Automatic Metacognition
인간의 자동적 메타인지(automatic metacognition)에 포함되는 현상 네 가지는 다음과 같습니다:
- 인지 감각 (Feeling of knowing) / 설단 현상 (Tip of the tongue) / 데자뷔 (Deja vu):
- 이는 무언가를 기억하고 있다는 느낌, 또는 기억은 나지 않지만 알 것 같다는 느낌과 관련된 현상입니다.
- 사람들은 퀴즈 쇼와 같은 상황에서 답을 실제로 떠올리기도 전에 답을 알 것 같다는 느낌을 매우 빠르게 인지하며, 자신의 기억에 대해 높은 수준의 정확성(“알파 역량”)을 가집니다.
- 이는 기억 속의 어떤 것에 대해 실제로 지식을 테스트하기 전에 그것에 대해 ‘안다’는 방식이 존재함을 시사합니다.
- 의사결정 신뢰도 (Decision confidence):
- 자신의 결정에 대해 얼마나 확신하는지에 대한 감각입니다.
- 명확한 사전 지식이나 정보가 많지 않더라도 자신의 결정에 대해 좋은 직감(gut feeling)을 가지는 경우가 많으며, 심지어 극도의 불확실성 조건에서도 자신의 수행 능력이 얼마나 좋을지 판단하는 데 상당히 정확할 수 있습니다.
- 반응 충돌 감각 (Sense of response conflict):
- 내면에서 상충하는 반응이 있을 때 느끼는 감각입니다.
- 스트룹 과제(Stroop task)와 같은 상황에서 단어와 색상이 일치하지 않을 때 발생하며, ‘잠깐, 잠깐, 내가 실수할 것 같아’라는 내면의 감각이 수백 밀리초 전에 나타납니다.
- 이 감각은 응답 속도를 늦추게 만들고, 속도를 늦추거나, 다시 생각하거나, 답을 확인하는 등의 의도적인 메타인지적 전략을 유발하는 방아쇠 역할을 합니다.
- 기대 위반 (Violation of expectations):
- 기대했던 것과 다른 상황이 발생했을 때 나타나는 현상입니다.
- 이는 과제를 수행할 자원이 부족하다고 느끼거나, 다른 방식으로 생각해야 할 필요성을 인지하는 것과 관련될 수 있습니다.
- 예를 들어, ‘피라미드 대수’ 문제에서 큰 숫자가 나왔을 때, 사람들이 일일이 계산하는 대신 잠시 멈춰서 이것이 시간이 오래 걸릴 것이라는 것을 인지하고 다른 추론 방식을 선택하게 만드는 방아쇠 역할을 합니다.
강연자는 이러한 현상들이 심리학의 서로 다른 분야에서 연구되어 왔지만, 자동적 메타인지의 일부로 함께 고려될 수 있다고 제안합니다. 자동적 메타인지는 종종 불안감(unease)이나 놀라움(surprise)과 같은 감각으로 나타나는 “자신의 내면 과정에 대한 일종의 지각”이며, 이러한 지각은 의도적인 메타인지적 추론을 위한 방아쇠(trigger) 역할을 할 만큼 충분히 의식적으로 인지될 수 있습니다.
자동적 메타인지와 뇌 영역
인간의 자동적 메타인지와 관련된 주요 뇌 영역은 메타 분석 연구를 통해 확인되었으며, 다음과 같은 특정 영역들이 지속적으로 활성화되는 것으로 나타났습니다.
이러한 영역들은 좌측 및 우측 뇌섬엽(Insula)과 내측 전두엽 피질(Medial Frontal Cortex)입니다.
강연자는 이 네 가지 자동적 메타인지 현상, 즉 인지 감각/설단 현상/데자뷔, 의사결정 신뢰도, 반응 충돌 감각, 기대 위반에 대한 fMRI 연구들을 종합적으로 분석(메타 분석)하여 이 영역들이 공통적으로 활성화됨을 발견했습니다.
- 인지 감각 (Feeling of knowing) / 설단 현상 / 데자뷔 연구에서는 좌측 및 우측 뇌섬엽과 내측 전두엽 피질이 일관되게 활성화되었습니다. 강연자는 이 영역들이 fMRI 연구에서 흔히 나타나는 영역이 아니라는 점에서 주목했습니다.
- 의사결정 신뢰도 연구에서도 뇌섬엽과 내측 전두엽 피질이 다시 나타났으며, 이전 연구들과 일부 중복되는 패턴을 보였습니다.
- 반응 충돌 감각 연구에서도 좌측 및 우측 뇌섬엽과 내측 전두엽 피질이 활성화되는 것이 확인되었습니다.
- 기대 위반 연구에서도 마찬가지로 내측 전두엽 피질과 좌측 및 우측 뇌섬엽이 나타났습니다.
이 네 가지 현상에서 나타난 활성화 영역들을 모두 함께 시각화했을 때, 정확한 중복 영역은 바로 좌측 및 우측 뇌섬엽과 내측 전두엽 피질임이 확인되었습니다.
강연자는 이러한 영역들이 문헌에서 ‘penta attention network’ (내부 상태에 대한 주의) 또는 ‘salience network’ (두드러지는 자극으로 주의를 전환)으로 알려져 있다고 언급하며, 통증, 내수용 감각(자신의 심장 박동 인지 등), 그리고 관점 취하기와도 관련이 있다고 설명했습니다.
또한, 이러한 영역들은 ‘인지의 공통 모델(common model of cognition)’이라는 뇌 아키텍처 상에서 장기 기억, 절차 기억 영역과 작업 기억/전역 작업 공간(global workspace) 영역 사이에 전략적으로 위치하며, 이는 이 영역들이 작업 기억에 메타 정보를 제공하기에 매우 적합함을 시사한다고 설명했습니다. 자동적 메타인지는 근본적인 뇌 아키텍처가 ‘노출’되는 몇 안 되는 지점이며, 이러한 영역들이 자신의 내부 과정에 대한 지각을 가능하게 하여 메타인지적 추론을 위한 ‘방아쇠’ 역할을 할 수 있다고 제안했습니다.