Stop Thinking, Just Do!

Sungsoo Kim's Blog

Probabilistic Safety Guarantees Using Model Internals

tagsTags

8 May 2025


Probabilistic Safety Guarantees Using Model Internals

  • Speaker(s): Jacob Hilton (Alignment Research Center)

세미나 주요 핵심 내용 요약

낮은 확률 추정 문제와 화이트 박스 안전 방법

제이콥 힐튼의 세미나는 인공지능 안전 보장, 특히 극히 낮은 확률로 발생할 수 있는 잠재적 재앙적 결과(catastrophe)를 피하기 위한 연구에 초점을 맞추었습니다. 주요 핵심 내용은 다음과 같습니다.

1. 낮은 확률 추정 문제의 중요성:

  • 안전 보장의 핵심은 드물지만 치명적인 사건을 방지하는 것입니다.
  • 이러한 사건은 무작위 샘플링으로는 거의 관찰되지 않을 정도로 발생 확률이 낮습니다.
  • 따라서 전통적인 머신러닝의 평균 성능에 초점을 맞춘 접근 방식으로는 부족합니다.
  • 낮은 확률 추정은 이러한 희귀 사건의 발생 가능성을 예측하고 평가하는 데 중요한 역할을 합니다.
  • 이는 화이트 박스 안전 방법의 효과를 평가하는 중요한 기준(eval)이 될 수 있습니다.

2. 블랙 박스 방법의 한계:

  • 블랙 박스 접근 방식(입출력만 관찰)은 모델 내부 작동 방식을 이해하지 못하므로, 낮은 확률의 위험한 행동을 유발하는 특정 입력이나 내부 상태를 식별하기 어렵습니다.
  • 간단한 토이 예시(2032년 이후 특정 행동을 하는 AI)를 통해 블랙 박스 방법의 한계를 설명합니다. 적대적 공격(adversarial attack)과 유사하게, 모델을 속이는 입력을 찾기 어려울 수 있습니다.

3. 화이트 박스 방법의 가능성:

  • 화이트 박스 접근 방식(모델 내부 구조 및 작동 방식 분석)은 네트워크 내부의 특정 분기(branch)나 활성화 패턴을 직접 검사하여 잠재적 위험 요인을 식별하고 제거할 수 있는 가능성을 제시합니다.
  • 낮은 확률 추정 도구를 활용하면, 특정 위험 행동을 유발하는 특정 입력을 찾는 대신, 그러한 행동을 유발할 가능성이 있는 입력 분포를 찾는 방식으로 문제를 완화할 수 있습니다.

4. 경험적 연구:

  • 작은 트랜스포머 언어 모델에서 낮은 확률 추정 문제를 실험적으로 탐구한 연구 결과를 소개합니다.
  • 활성화 외삽법(activation extrapolation) 기반의 화이트 박스 방법과 중요도 샘플링(importance sampling) 기반의 블랙 박스 방법을 비교했습니다.
  • 실험 결과, 활성화 외삽법이 단순한 기준선 방법보다는 우수한 성능을 보였지만, 현재까지는 중요도 샘플링 방법이 경험적으로 더 좋은 성능을 나타냈습니다.
  • 하지만 중요도 샘플링은 최악의 경우(위험한 입력을 찾는 것이 매우 어려운 경우) 작동하지 않을 수 있다는 점을 지적합니다.

5. 이론적 논의 및 향후 연구 방향:

  • 더 일반적인 낮은 확률 추정 문제에 대한 이론적 접근 방식을 제시합니다.
  • 네트워크의 각 레이어별 활성화 모델링과 역방향으로 전파되는 클레임 모델링(claim modeling)이라는 개념을 소개합니다.
  • 클레임 모델링은 모델이 정확하게 예측해야 하는 활성화의 특정 속성을 식별하는 데 목표를 둡니다.
  • 커널 방법(kernel method)을 활용한 간단한 낮은 확률 추정 문제에 대한 초기 경험적 결과를 제시하며, 샘플링 기반 방법보다 잠재적으로 더 나은 성능을 보일 수 있음을 시사합니다.
  • 이는 아직 초기 연구 단계이며, 더 많은 이론적 발전과 검증이 필요함을 강조합니다.

결론적으로, 이 세미나는 낮은 확률 추정 문제가 인공지능 안전 보장의 중요한 과제이며, 화이트 박스 방법이 블랙 박스 방법의 한계를 극복하고 이 문제를 해결하는 데 잠재적인 이점을 가질 수 있음을 강조합니다. 경험적 연구는 아직 초기 단계이지만, 활성화 분석과 모델 내부 이해를 기반으로 한 새로운 접근 방식이 향후 인공지능 안전 연구에 중요한 방향을 제시할 수 있음을 시사합니다.

세부 내용

좋습니다. 제 소개를 기쁘게 해드릴 분은 제이콥 힐튼입니다. 제이콥은 제가 OpenAI에 있었을 때 저와 겹치는 기간이 있었는데, 그때는 지금 그가 하는 것과는 매우 다른 경험적인 연구를 했습니다. 좋은 변화였죠. 그리고 최근에는 폴이 정부 일을 떠난 후 얼라인먼트 연구 센터를 이끌고 있습니다. 저는 이 분야가 매우 흥미롭다고 생각합니다. 아마도 미러 이후 존재적 위험 분야에서 매우 강력한 보장을 추구하는 최초의 분야 중 하나일 것입니다. 그리고 저는 이 연구의 흥미로운 측면 중 하나가 풀리지 않은 더 간단한 아이디어를 계속해서 버리는 것과 같다는 점이라고 생각합니다. 제이콥의 연구에는 일종의 흥미로운 생성 과정이 있습니다.

네, 친절한 소개 감사합니다. 저는 얼라인먼트 연구 센터를 운영하고 있습니다. 이번 발표에서는 청중에게 가장 적합하다고 생각해서 저희가 수행한 단 하나의 경험적 연구에 초점을 맞춰 제프리에게 약간 실망을 드릴 수도 있겠습니다. 하지만 이론적인 내용도, 특히 말미에 다룰 것입니다. 그리고 얼라인먼트 연구 센터에 대해 몇 마디 드리자면, 저희는 버클리 다운타운 바로 길 아래 버클리에 기반을 둔 비영리 단체입니다. 여기 계신 대부분의 분들은 제가 발표할 연구에 어떤 식으로든 참여하셨습니다. 왼쪽에 계신 분들은 현재 ARC 소속이고, 오른쪽에 계신 분들은 이전에 참여했거나 방문하신 분들입니다. 그리고 네, 학계에 계신 분들에게는 독립적인 비영리 단체라는 점에 몇 가지 장점이 있습니다. ARC에 대해 더 자세히 이야기하고 싶으시면 나중에 저를 찾아와 주세요.

좋습니다. 이 워크숍은 안전 보장에 관한 것입니다. 그렇다면 안전 보장이란 무엇을 의미할까요? 이번 발표의 목적상, 안전 보장이란 특정하고 드물게 발생할 수 있는 잠재적으로 파국적인 결과를 피하려고 노력하는 것을 의미한다고 상상해 보겠습니다. 여러분은 중간에 AI 시스템을 가지고 있고, 거기에 입력을 제공합니다. 아마도 그것은 어떤 에이전트 기반의, 매우 지능적인, 장기적인 작업을 수행하는 것일 수 있습니다. 여러분은 거기에 많은 문서, 많은 정보를 제공하고, 아마도 인터넷에 낮은 수준으로 접근하여 검색하고, 온갖 종류의 작동기를 가지고 여러 가지 작업을 수행할 것입니다. 그리고 여러분은 이 나쁜 결과를 피하고 싶어합니다. 기본적으로 그것은 최악의 경우에 대한 보장과 같습니다. 우리는 ML이 이미 매우 잘하는 평균적인 성능에 초점을 맞추는 것이 아닙니다. 그리고 우리는 이론가이기 때문에 약간의 말 바꾸기를 할 것입니다. 기본적으로 이 다이어그램에서 잘 정의되지 않고 모호한 모든 것을 우리가 이론가로서 다룰 수 있는 형식적으로 정의된 것으로 대체할 것입니다. 물론 이것은 문제의 어려운 부분을 많이 버리는 것입니다. 예를 들어, 파국에 대한 형식적인 개념을 얻는 것은 매우 어렵습니다. 하지만 제 주장은 제가 이것을 많이 단순화했음에도 불구하고, 이것은 여전히 상당히 어려운 문제라는 것입니다. 만약 여러분이 크고 복잡한 신경망을 가지고 있다면, 그것이 할 수 있는 모든 것의 수는 그 크기에 대해 지수적입니다. 예를 들어, 그것이 어떤 나쁜 일을 결코 하지 않을 것이라는 어떤 종류의 보장을 하는 것은 이 형식적인 문장에서도 꽤 어렵습니다. 그리고 저는 기본적으로 제가 이미 많이 단순화했음에도 불구하고, 이것이 여전히 문제의 큰 부분이라고 주장하는 것입니다.

그리고 제가 할 두 번째 단순화는 이것을 훨씬 더 간단하게 만들어서 나쁜 결과를 막을 필요조차 없다고 말하는 것입니다. 제가 하려는 것은 이 형식적으로 정의된 사건의 확률을 추정하는 것뿐입니다. 그렇다면 이것이 합리적인 단계인 이유는 무엇일까요? 희망은 만약 여러분이 이 나쁜 사건이 일어날 확률을 추정할 수 있다면, 아마도 그 확률이 낮은 모델을 선택할 수 있을 것이라는 점입니다. 그것은 정확히 똑같은 것은 아닙니다. 아마도 여러분은, 네, 아마도 낮은 평균 제곱 오차를 얻는 것과 같은 확률을 추정하는 것이 그것을 피할 수 있는 방식으로 잘 추정하는 것과 정확히 같지는 않을 것입니다. 하지만 그럼에도 불구하고 그것은 문제의 어려움의 큰 부분을 포착합니다.

좀 더 정확하게 말씀드리자면, 기본적으로, 낮은 확률 추정은 다음과 같은 문제입니다. 어떤 입력 공간 X에서 어떤 출력 공간 Y로 가는 모델이 주어졌고, 어떤 입력 분포가 주어졌을 때, 그리고 어떤 형식적으로 정의된 C가 주어졌을 때 (C는 파국을 의미하며, Y에서 {0, 1}로 가는 어떤 함수입니다), 우리는 그 사건이 일어날 확률을 추정하고 싶습니다. 심지어 이 확률이 무작위 샘플링으로는 추정하기에 너무 작을 때조차 말입니다. 확률을 추정하는 자연스러운 방법은 많은 예시를 넣어보고 그 사건이 언제 발생하는지 확인하는 것입니다. 우리는 그 확률이 너무 작아서 무작위로 선택했을 때는 기본적으로 절대 일어나지 않을 사건들을 고려할 것입니다. 네, 그것은 적지 않겠습니다. 좋습니다. 이번 발표에서 제가 주장하고 싶은 주요 내용은 다음과 같습니다. 낮은 확률 추정 문제는 화이트 박스 안전 방법의 핵심 평가 기준입니다. 여기서 화이트 박스 안전 방법이란 무엇을 의미할까요? 몇 가지 예를 들겠습니다. 메커니즘적 해석 가능성, 아마도 특이점 학습 이론, 심지어 단순히 프로브나 이와 유사한 것들, 즉 모델 내부를 들여다보고 무슨 일이 일어나고 있는지 확인하는 모든 것이 제가 화이트 박스 안전 방법이라고 부르는 것들입니다. 그리고 이번 주에 한두 번 언급되었을지도 모르지만, 현재 특히 메커니즘적 해석 가능성 커뮤니티에서 중요한 질문 중 하나는 우리의 방법으로부터 실제로 좋은 안전 이점을 얻기 위해 사용할 수 있는 좋은 다운스트림 작업은 무엇인가 하는 것입니다. 우리는 그것들을 어떻게 검증할 수 있을까요? 우리는 실제로 안전 가치를 더하고 있는지 어떻게 확인할 수 있을까요? 그리고 저는 낮은 확률 추정이 그러한 응용 프로그램 중 하나라고 주장할 것입니다. 저는 이것을 네 가지 요점으로 논증하려고 합니다. 첫째, 낮은 확률 추정은 제가 지금까지 논증하려고 노력했던 안전 보장 제공이라는 문제의 핵심적인 부분을 실제로 포착합니다. 둘째, 왜 화이트 박스 방법을 언급했을까요? 블랙 박스 방법은 우리가 만들 수 있는 몇 가지 매우 간단한 경우에서 이 문제를 해결하기에 실제로 충분하지 않다고 주장할 것입니다. 하지만 화이트 박스 방법은 실제로 더 나은 가능성을 가지고 있습니다. 그리고 마지막으로, 앞서 말씀드린 것처럼 이 점에 대해서는 더 자세히 다루지 않겠지만, 화이트 박스 방법의 다운스트림 응용 프로그램에 대한 필요성이 있다고 생각합니다.

좋습니다. 블랙박스 대 화이트박스 구별에 대해 논의하기 위해, 저는 이러한 종류의 장난감 예시를 사용하겠습니다. 이전과 마찬가지로 AI 시스템에 모든 정보를 입력하고, AI 시스템이 스스로 “지금 몇 년도지?”라고 생각한다고 상상해 보세요. 그리고 그 해가 2032년 이후인지 이전인지 판단합니다. 그리고 만약 2032년 이후라면, 피하고 싶은 어떤 미친 나쁜 일을 하기로 결정합니다. 그 이전이라면 괜찮고, 파국은 없습니다.

그렇다면 파국을 피하거나 단순히 확률을 추정하는 블랙박스 접근 방식은 무엇일까요? 우리는 예시를 던져볼 수 있습니다. 모델이 이와 비슷한 생각을 하고 있다고 의심된다면, 2032년처럼 보이게 만드는 입력을 만들어 실험실에서 모델을 실행해 볼 수 있습니다. 그리고 실제로 행동을 실행하지는 않지만, 이것이 파국적이었을지 확인해 볼 수 있습니다. 하지만 문제는 실험실에서 그렇게 하기가 매우 어려울 수 있다는 것입니다. 우리는 이 “예” 분기를 트리거하는 어떤 입력도 생각해내지 못할 수도 있습니다. 그리고 그 이유에 대해 이론적인 이유와 현실적인 이유 모두를 제시할 수 있습니다. 이론적인 관점에서 보면 매우 쉽습니다. 널리 존재한다고 믿어지는 단방향 함수를 사용하기만 하면 됩니다. 예를 들어, 해시 함수의 출력이 모두 0인 입력이 거의 확실히 존재하지만, 그러한 입력을 찾는 것은 거의 불가능합니다. 물론, 모델이 실제로 해시 함수를 확인하려면 외부 도구를 호출해야 하는데, 이는 우리가 알아챌 수 있거나, 모델 자체가 해시 함수를 계산해야 하는데, 이는 트랜스포머에게는 매우 어려운 작업일 것입니다. 왜냐하면 매우 순차적인 깊이의 계산이기 때문입니다. 현실적으로, 만약 현실 세계에서 이 문제를 실제로 마주하게 된다면, 모델은 우리가 예시에 제대로 반영하지 못한 미묘한 단서들을 포착할 것입니다. 예를 들어, 모델을 2032년이라고 속이기 위해 모든 신문의 날짜를 바꿀 수도 있습니다.

네. 그래서 먼저 이렇게 하고 나서 다른 해시 함수에 1/2에서 1/4 사이의 확률을 선택하도록 요청하는 멍청한 화이트 박스 파괴 예시를 만들 수 있을까요? 화이트 박스 방법조차 좋은 비율을 얻을 수 없는 분포가 될까요? 예시를 잘 이해하지 못했습니다. 죄송합니다.

네, 예를 들어 모든 신문의 날짜를 2032년이라고 바꿨을 수도 있습니다. 하지만 모델이 우리 신문을 보고 “이건 2022년이 아니야. 관련된 주요 인물들의 이름이 2022년과는 전혀 달라”라고 판단할 수도 있습니다. 이것은 지금은 겪지 않을 문제일 수도 있지만, 모델이 우리보다 똑똑하다면 아마 속일 수 없을 것입니다. 하지만 화이트 박스 접근 방식을 사용하면 네트워크 내부를 들여다보고 그 분기를 확인한 다음 “이 분기는 마음에 안 들어. 없애버리자”라고 말할 수 있기를 바랄 수 있습니다. 그리고 이것이 낮은 확률 추정과 어떻게 연결되는지 좀 더 명확히 설명하자면,

만약 우리가 좋은 낮은 확률 추정 도구를 가지고 있다면, 문제를 단순화할 수 있습니다. 즉, “예” 분기를 트리거하는 특정 입력을 찾아야 하는 대신, 분포 내의 어떤 입력에서든 “예” 분기를 트리거하는 분포를 찾기만 하면 됩니다. 예를 들어, 모든 신문 제목을 2032년으로 편집하고 2032년에 누가 대통령이 될지 몰랐다면, 많은 무작위 이름을 대체해 넣고 모델이 속을 만한 어떤 무작위 선택 조합이 있기를 바랄 수 있습니다. 그런 다음 낮은 확률 추정 메커니즘을 적용하여 “어떤 확률로 이 분기가 트리거될지 알 수 있습니다. 그리고 만약 제 메커니즘으로 그것을 포착하고 선택하여 제거할 수 있다면, 그 분기에 접근할 수 있습니다.” 이것이 희망입니다. 질문 있으신가요?

네, 좋습니다. 그것이 이론적 동기 부여 설명이었고, 이제 작년에 발표된 저희의 경험적 논문에 대해 이야기하겠습니다. 그 논문에서 저희는 작은 트랜스포머 언어 모델의 맥락에서 이 낮은 확률 추정 문제를 살펴보고, 몇 가지 기준선과 화이트 박스 및 블랙 박스 접근 방식을 시도했습니다. 이것은 가브리엘과 공동 연구한 것입니다. 이 특정 경우에서 저희 모델 M은 파이썬과 영어로 훈련된 작은 언어 모델입니다. 입력 분포는 다시 말하지만 형식적인 설정에서 작업하고 있으므로, 독립적인 토큰으로 이루어진 무작위로 선택된 토큰입니다. 매우 간단합니다. 다음은 저희가 사용한 몇 가지 분포의 예입니다. 평균이고, 형식적으로 정의된 사건, 즉 소위 “파국”은 모델이 출력하기를 원하지 않는 특정 토큰입니다. 예를 들어, 모델이 로짓 벡터를 출력한다고 생각할 수 있다면, 사건 C는 가장 큰 로짓이 “tree”와 같은 특정 토큰인 사건입니다. 그리고 이 확률이 매우 작은 (10억 분의 1에서 10만 분의 1 사이) 토큰만 살펴봅니다. 그리고 저희 방법의 계산량을 제한합니다. 즉, 지표를 얻기 위해 10억 개의 샘플을 실행할 수 있다고 가정하지만, 저희 방법 간의 공정한 테스트를 위해 약 10만 개의 샘플만 사용할 수 있다고 가정합니다. 이는 이 범위의 상한선에 해당합니다. 따라서 무작위 샘플링은 종종 단일 예시조차 보지 못할 것입니다.

네. 그래서 그 파국은 토큰 수준에서 정의되지만, 언어 모델에서 토큰 수준에서는 실제로 나쁜 것을 알아내는 데 더 긴 시퀀스 토큰이 필요하다는 것을 알 수 없을 수도 있습니다. 네. 그래서 그것이 나쁜지 아닌지를 알아내는 것 자체가 어려운 문제입니다. 네, 전적으로 동의합니다. 좀 더 현실적인 버전은 이러한 무작위의 이상한 분포 대신에 현실적인 프롬프트를 입력하는 것일 것입니다. 모델을 실행하고, 아마도 마지막에 추가적인 모델을 실행하여 “이것이 어떻게 파국을 일으킬 수 있는지 모든 방법을 생각해 보고” 파국인지 아닌지 분류하는 것입니다. 그리고 그 전체 시스템을 여러분의 M으로 취급하는 것입니다. 그리고 이것은 단지 그것을 위한 매우 간단한 대리물일 뿐입니다. 이전 슬라이드에서 확인하자면, 다른 것을 찾는 것이었습니다.

그렇다면 최적화 문제는 분포 D를 찾는 것인가요? 좋은 질문입니다. 아니요, 이 경우에는 분포 D를 고정합니다. 알겠습니다. 그리고 문제의 다른 부분, 즉 “네, 주어진 분포에 대해 이 확률을 잘 추정할 수 있을까요?”라는 부분을 해결하는 것뿐입니다. 그래서 이 토큰은 이미 훈련 데이터에서 보였는데, 모델이 생성하기를 원하지 않는 토큰의 인스턴스는 얼마나 될까요? 음, 대부분의 토큰, 사실 아마도 전부일 텐데, 훈련 데이터에서 어떤 시점에든 발생했을 것입니다. 훈련 데이터는 아마 10억 개 정도의 토큰으로 훈련되었을 것입니다.

그래서, 아시다시피, 그러한 토큰들이 훈련에 많이 나타났을지라도, 이러한 이상한 상황 이후에 10억 분의 1의 확률로 나타날 수도 있습니다. 네. 죄송합니다. 그래서, 음, 아까 말씀하신 것 같은데,

모든 토큰에 대해 샘플링할 수 있나요? 일반적으로 불가능하다는 것은 알지만, 이 경우에는 그렇게 할 수 있나요? 네. 그래서, 음, 네. 이 특정 버전에서는 파국을 특정 토큰으로 정의하는 것과 같습니다. 그래서 네, 가장 명백한 시도는 이러한 분포에서 많은 예시를 입력하고 해당 토큰이 나타나는 횟수를 세는 것입니다. 그것이 실제로 저희가 비교할 기준선입니다. 네, 아주 좋은 지적입니다. 음, 하지만 핵심은 그 기준선이 이 맥락에서 매우 나쁘다는 것입니다. 왜 나쁘냐면, 이 확률 범위의 상한선조차, 즉 가장 흔한 토큰조차 10만 분의 1 정도이기 때문입니다. 하지만 저희 방법의 예산은 대략 그 정도 횟수만큼만 샘플링할 수 있을 정도입니다. 따라서 종종 단일 예시조차 보지 못할 것입니다. 따라서 그 기준선은 임의의 값을 예측하는 것과 거의 같습니다.

편의를 위해. 더 궁금한 점 있으신가요? 어떤 종류의 해결책인가요? 어떤 종류인가요? 중요한 대기. 네. 네. 중요한 것을 말씀드리겠습니다.

좋습니다. 먼저 저희가 취하는 화이트 박스 소위 접근 방식을 다루겠습니다. 이는 활성화 외삽법으로 요약할 수 있습니다. 관심 있으신 분은 네, 화이트 박스 접근 방식으로 이 방법을 수행하는 데 관심이 있습니다. 우리는 무엇을 할까요? 네트워크 내부의 어떤 레이어를 가져와서 거기에 분포를 맞추고 꼬리 부분으로 외삽합니다. 이것이 기본적인 아이디어이고, 이 경우에 잘 작동했던 특정 방법은 다음과 같습니다. 모델링할 레이어는 트랜스포머의 최종 임베딩 바로 앞의 가장 마지막 레이어입니다. 그리고 우리는 그것을 샘플의 경험적 분포로 모델링할 것입니다.

하지만 각 샘플을 A와 B 두 조각으로 나눌 것입니다. 그리고 그 조각들로부터 가능한 모든 왼쪽 조각과 모든 오른쪽 조각을 결합하여 더 큰 합성 집합을 얻을 수 있습니다. 그리고, 음, 이것을 아래에 그린 것과 약간 비슷하게 생각할 수 있습니다. 예를 들어, 샘플 수가 적은 예산만 있다고 상상해 보세요. 그래서 빨간색 삼각형과 파란색 원만 얻을 수도 있습니다. 그리고 이러한 종류의 방법으로, 여러분은 그것을 확장하여 이차적으로 많은 예시를 얻게 됩니다. 그리고 마지막 레이어에서 영리하게 처리하기 때문에 선형 시간으로 빠르게 수행할 수 있습니다. 이것은 약간 이상해 보입니다. 이 방법은 실제로 어디서 왔을까요? 우리가 시도했던 첫 번째 종류의 방법은 최종 레이어에 다변량 가우시안 분포를 맞 추는 것이었습니다. 하지만 그로부터 얻는 대부분의 이점은 이러한 종류의 효과에서 비롯된다는 것이 밝혀졌습니다. 그리고 실제 가우시안 가정은 꼬리가 충분히 두껍지 않다는 등의 이유로 실제로 도움이 되지 않았습니다. 그래서 이것이 우리가 사용했던 개발 세트에서 잘 작동하는 것처럼 보였던 것입니다.

그리고 우리는 이것을 앞서 말씀하신 중요도 샘플링과 같은 블랙박스 방법과 비교했습니다. 중요도 샘플링이란 무엇일까요? 기본적으로

확률을 지시 함수의 기댓값으로 쓰면, 중요도 샘플링은 이 사건에 더 집중된 다른 분포를 사용하여 이것을 근사합니다. 다른 분포 D가 있다면, 그 분포에서 X를 샘플링하고, 기댓값 안의 내용을 밀도 함수의 비율로 바꿔야 합니다. 이것을 중요도 샘플링 비율이라고 합니다.

그리고 D 프라임을 신중하게 선택하면 분산이 훨씬 낮아지고, 편향되지 않습니다. 그리고 가장 중요한 것은 D 프라임을 어떻게 선택하느냐입니다. 이것을 적대적 탐색 방법을 낮은 확률 추정 방법으로 바꾸는 방법이라고 생각해야 합니다. 사건이 발생하는 예시를 찾는 어떤 방법이 있다면, 확률 비율을 얻을 수 있다고 가정하면 (반드시 쉬운 것은 아니지만), 확률을 추정할 수 있습니다. 저희는 화이트 박스 방법뿐만 아니라 블랙박스, 즉 중요도 샘플링 방법을 최대한 밀어붙여 얼마나 멀리 갈 수 있는지에도 관심이 있었습니다. 그리고 꽤 잘 작동했던 두 가지 방법이 있습니다. 첫 번째는 볼츠만 분포를 사용합니다. 다른 말로 하자면, 저희는 입력 분포를 가져옵니다. 예를 들어, 이러한 16진수 토큰과 같은 것, 혹은 이러한 분포 중 하나와 같은 것입니다. 그리고 각 토큰의 로그 확률을 목표에 얼마나 영향을 미치는지에 대한 기울기에 따라 높입니다. 예를 들어, “a”를 “갈색”으로 바꾸면 기울기에 따라 “나무”가 더 가능성이 높아질까요? 이것이 첫 번째 중요도 샘플링 방법입니다. 그리고 두 번째 방법은 약간 더 정교합니다. 마르코프 체인 몬테카를로 방법을 사용합니다. 네, 만약 여러분이 네, 그리고 그것은 기본적으로 탐욕적 좌표 기울기라는 방법을 사용하여 파국적 사건을 일으키는 적대적인 입력을 찾는 데 도움이 됩니다. 네, 이 두 가지 방법도 꽤 잘 작동합니다. 그리고 저희가 비교하는 기준선은 첫째로 완전히 무작위로 샘플링하는 매우 순진한 방법인데, 이는 매우 나쁩니다. 그리고 가우시안 로짓 차이는 매우 간단한 활성화 외삽 방법으로, 대상 로짓에서 최대 로짓을 뺀 값에 단변량 분포를 맞춥니다. 좋습니다. 이 방법들이 어떻게 작동하는지 좀 더 자세히 살펴보겠습니다. 옆 화면에서 더 명확하게 보일 수도 있습니다.

네, 여기 보시면 제가 말씀드린 주요 세 가지 방법, 즉 이차 로직 방식의 화이트 박스 방법과 두 가지 중요도 샘플링 방법이 모델의 특정 동작에 대해 적용된 것을 볼 수 있습니다. 그리고 대략적으로 다음과 같은 것을 알 수 있습니다.

음, 이것들은 괜찮은 결과를 보여줍니다. 보시다시피 오차 막대가 상당히 넓습니다. 몇 배나 차이가 나지만, 확률 자체가 매우 작습니다. 이 값들을 정확하게 얻는 것은 매우 어렵습니다. 그리고 이차 로직 분해는 그다지 좋지 않습니다. 이는 여기 요약 점수에 반영되어 있습니다. 네, 그래서 모든 다른 분포에 대해 집계해서 보면 여기 이 그래프가 있습니다. 기준선 방법은 위에 있습니다. 낮을수록 좋습니다. 꽤 나쁜 결과를 보입니다. 화이트 박스 방법은 기준선보다 훨씬 더 나은 결과를 보입니다. 하지만 선두에 있는 것은 중요도 샘플링 방법입니다. 결론은 무엇일까요? 네, 이 화이트 박스 방법은 기준선이나 매우 간단한 기준선보다 성능이 뛰어나지만, 현재는 중요도 샘플링이 선두를 달리고 있습니다. 따라서 중요도 샘플링이 최악의 경우 작동하지 않을 수 있지만 (나쁜 행동을 일으키는 실제 입력을 찾아야 하기 때문에), 경험적 실제에서는 여전히 우위를 점하고 있습니다.

그것에 대해 질문 있으신가요? 네, 그것은 보라색의 메트로폴리스-헤이스팅스입니다. 두 가지 중요도 샘플링은 빨간색 상자입니다. 스텐실 검색과 같은 것인가요? 역전파를 수행하지 않습니다. 그래서 블랙박스로 간주했지만, 화이트 박스와 블랙박스를 뭐라고 부를지는 취향의 문제입니다. 아마도 기울기를 사용하는 것 같습니다. 네. 그래서 일종의 회색 상자입니다. 네. 뭐라고 부르고 싶으신지 모르겠습니다. 기울기를 의미하는 회색. 네. 저희가 기본적으로 방법을 나누는 이유는, 저희에게 중요한 구분은 활성화 외삽 접근 방식을 사용하는지 (확률 분포를 맞추는 것과 같은) 아니면 특정 입력을 찾아 작동하는 중요도 샘플링 방법을 사용하는지 (입력을 찾는 것이 영리한 회색 상자일지라도)입니다.

좋습니다. 이제 약간 더 이론적인 질문에 대해 이야기하겠습니다. 이러한 확률 추정 문제를 좀 더 일반적인 방식으로 어떻게 접근할 수 있을까요? 네, 활성화에 모델을 맞추는 것에 대해 이야기했습니다. 저희가 여기서 탐구한 방법에서는 한 레이어에만 맞췄지만, 실제 심층 모델에서는 네트워크의 여러 다른 레이어에 여러 활성화 모델을 맞춰야 할 수도 있습니다.

그리고 네, 음, 네, 예를 들어, 여기 형식적으로 정의된 입력 분포가 있고, 모델을 여러 레이어로 나눈다고 상상해 보세요. 파국 정의가 다른 모델이나 그런 것과 같다면 몇 개의 레이어가 더 있을 수도 있습니다. 그리고 결국 파국 발생 여부에 대한 분포에 도달합니다. 그리고 기술적으로 말하면, 여러분이 해야 할 일은 입력 분포에서 시작하여 순전파, 순전파, 순전파를 하는 것뿐입니다. 그러면 출력 분포를 얻게 됩니다. 왜 이것이 작동하지 않을까요? 물론 순전파할 때마다 훨씬 더 복잡해집니다. 따라서 이것을 정확하게 순전파할 수는 없습니다. 하지만 여러분이 바랄 수 있는 것은 이 레이어에 대한 어떤 모델을 갖는 것입니다. 여기서 여러분은 순전파를 수행하지만, 활성화 모델이 더 간단한 어떤 더 간단한 공간으로 투영합니다.

그리고 그것을 순방향으로 투영하고, 아래로 투영하는 등의 작업을 최종 추정치를 얻을 때까지 반복합니다. 이것의 한 가지 문제는, 여러분이 엄청난 양의 복잡성을 잃고 있다는 것입니다. 그리고 이것이 작동할 수 있는 유일한 실현 가능한 방법은, 여러분이 모델링하는 분포의 측면이 실제로 여러분이 관심 있는 특정 사건, 즉 궁극적으로 마지막의 이 파국 사건에 중요하다는 것을 확실히 하기 위해 어떤 종류의 용량 할당을 하는 경우입니다. 그리고 저희가 실제로 생각하는 것은 이 클레임 모델링 접근 방식입니다. 여기서 아마도 순방향으로 전파되는 일련의 활성화 모델과 역방향으로 진행되는 저희가 클레임 모델이라고 부르는 일련의 모델이 있을 수 있습니다. 클레임 모델이란 무엇을 의미할까요? 저희가 고려하고 있는 몇 가지 다른 접근 방식이 있다고 생각합니다. 그 중 하나는 클레임이 활성화의 어떤 함수이고, 그 기대값을 여러분의 모델이 정확하게 얻는 것입니다. 그리고 클레임 모델은 클레임에 대한 분포일 수 있습니다. 즉, 이것들이 분포에 대해 실제로 정확하게 알아야 할 것들이라고 말하는 것입니다. 따라서 CN은 왜 역방향으로 전파될까요? CN이 무엇인지 알기 때문입니다. 그것은 단순히 0인지 1인지 여부에 대한 클레임일 뿐입니다. 그리고 CN-1에 대해 말할 수 있습니다. 중요한 것은 0을 트리거한 것이었는지, 아니면 1을 트리거한 것이었는지입니다. 그것이 이 두 번째 마지막 분포에 대해 어떤 의미에서 우리가 정말로 신경 쓰는 유일한 것입니다. 그리고 우리는 그것을 역방향으로 전파할 수 있습니다. 이것은 우리가 무엇을 신경 쓰는지 알려줍니다. 이것은 분포의 희망이 무엇이었는지 알려줍니다. 네, 우리는 이러한 종류의 결합 훈련 방식을 보고 있습니다.

다음 슬라이드에서 더 구체적인 정의를 드리겠습니다. 음, 좀 더 정확하게 말씀드리자면, DI, 즉 이러한 분포 중 하나가 주어졌다고 가정해 봅시다. CI를 이미 알고 있다고 가정해 봅시다. 그리고 MI를 어떻게 얻는지 설명하겠습니다. 좋습니다. DI가 무엇인지, CI가 무엇인지 설명하고, M이 무엇인지 설명하겠습니다. 좋습니다. DI는 어떤 분포입니다. 매우 복잡할 수 있습니다. 예를 들어, 거대한 언어 모델의 내부 활성화의 분포가 중간쯤에, 어떤 큰 분포 이후에 있는 것과 같습니다. 매우 매우 복잡한 대상입니다. 그리고 C는 클레임에 대한 분포입니다. 클레임은 이 분포의 영역, 즉 활성화 공간에서 실수로 가는 함수이고, C는 이러한 대상에 대한 분포일 것입니다. 이해되셨나요? 좋습니다. 그렇다면 M이 무엇을 하기를 원할까요? M은 D를 근사해야 하고, M에는 두 가지 요구 사항이 있습니다. 하나는 너무 크면 안 된다는 것입니다. D는 매우 복잡한 대상입니다. 저희는 핵심적인 것들을 포착하는 훨씬 더 간단한 대상을 원합니다. 여기서 저희는 그것이 K 비트를 사용하여 지정될 수 있다고 말할 것입니다.

그리고 둘째로, C에서 클레임을 추출할 때 오차가 작기를 바랍니다. 좋습니다. 이것은 무엇을 의미할까요? 외부 기댓값에서는 C에서 무작위 함수를 추출합니다. 따라서 C는 함수의 분포입니다. 따라서 이 F는 D의 영역에서 실수로 가는 함수입니다. 그리고 저희는 이 함수의 M 하에서의 기댓값이 평균 제곱 오차에서 실제 분포 D 하에서의 이 함수의 기댓값과 가깝기를 바랍니다. 그리고 가능한 모든 클레임에 대한 기댓값을 취하고, 이것이 작기를 바랍니다. 이해되셨나요?

그런데 이걸 어떻게 하는지 짐작 가는 분 계신가요?

좋습니다. 음, 어떻게 하는지 말씀드리지 않았습니다. 이 두 매개변수를 지정하지 않았습니다. K와 엡실론 제곱 사이에는 달성할 수 있는 어떤 관계가 있습니다. 짐작 가는 분 계신가요? 네. 함수 공간에서 분포를 SVD하는 것. 네, 그런 종류의 작업을 할 수 있습니다. 샘플링이 허용된다면 훨씬 더 간단한 해결책이 있습니다.

음, 이 분포 D를 스케치하기 위해 할 수 있는 가장 간단한 방법은 K개의 샘플을 사용하여 스케치하는 것입니다. 즉, 분포에서 K개의 샘플을 무작위로 추출합니다. 이제 어떤 것의 기댓값을 계산하고 싶을 때, 샘플 집합에 대해 부적절한 기댓값을 계산하기만 하면 됩니다. 클레임이 무엇인지 미리 알 필요 없이 샘플을 수집하기만 하면 됩니다. 음, 그러면 K는 1/엡실론 제곱 정도가 됩니다. 기본적으로 분산이 샘플 수에 반비례하기 때문입니다. 음, 그래서 무작위 샘플링을 사용하면 그렇습니다. 그리고 관찰 결과, 언급하신 SVG와 같은 접근 방식으로 이를 결정론적으로 수행할 수 있습니다. 여기서 이 커널 같은 것을 대각화하면 됩니다. 음, 네, 실제로 샘플을 사용할 필요는 없습니다. 네, 시간 역순으로 진행되는 C의 시퀀스이고, 각 시퀀스에 대해 독립적으로 수행하면 순방향 의미론을 수행할 수 없습니다. 즉, 스케치가 호환되지 않습니다. 따라서 전체 시퀀스를 수행할 때, 결합적으로 수행하나요, 아니면 작동하나요?

글쎄요.

제 생각에는 네, 음, 네, 그렇다고 생각하지만, 질문을 100% 이해했는지 확신하지 못합니다. 제 생각에는 여러분이 아마도

음, 저희가 상상하는 것은 C에 대한 어떤 손실 함수가 있고, 그것은 다음 C와 현재 M, 혹은 아마도 아, 죄송합니다. 아마도

M 중 하나와 다음 C에 대한 손실 함수가 있을 것입니다. 어떤 M인지 확실하지 않지만, M에 대한 손실 함수가 있고, 그것은 이전 M과 현재 C에 의존해야 합니다. 하지만 만약 제가 스케치에서 샘플링한다면, 스케치에서 샘플링을 계산할 수 없습니다. 무슨 의미인가요? 그냥 이 함수를 적용하는 것 아닌가요? 무슨 의미인가요?

아, 알겠습니다. K 비트에서 역으로 계산할 수 있군요.

좋습니다. 좀 더 구체적으로 말씀드리자면, D가 많은 매개변수를 가진 밀도 함수로 지정되어 있고, 그러한 매개변수를 많이 버리고 K개의 매개변수만 가진 밀도 함수를 생성해야 한다고 상상해 봅니다. 도움이 되셨으면 좋겠습니다. 네, 주의사항으로, 이것은 모두 매우 최근에 진행 중인 작업이며, 기본적인 미리보기를 제공하려는 것입니다. 네, 간단한 질문입니다. 역방향으로 진행되는 C와 순방향으로 진행되는 M에서 어떤 종류의 최적화를 사용하고 있나요? M을 파악하기 위해 C의 추정치가 필요하고, C를 파악하기 위해 M의 추정치가 필요합니다. EM 알고리즘과 같은 접근 방식으로 할 수 있겠죠? 음, 그렇게 생각하시나요?

가능할 수도 있습니다. 네, 아마 맞을 겁니다. 음, 현재 상황은 이것이 저희가 하려는 일종의 일반적인 스케치이고, 실제로 하고 있는 구체적인 것은 훨씬 더 간단하며, 정확히 EM 알고리즘이라고 생각하지 않습니다. 하지만

음, 어떤 경우에는 이것이 M 알고리즘이 될 것입니다. 그것이 이 결과입니다. 네, 이것은 어려운 결과는 아니지만, 저희는 이것의 확장에 대해 생각하고 있습니다. 아직 증명하려고 노력 중입니다. 음, 네, 다시 말하지만, 매우 초기 단계의 경험적 결과입니다. 그래서 저희는 기본적으로 이 커널 방법을 매우 간단한 낮은 확률 추정 문제에 적용했습니다. 그 문제는 다음과 같습니다. 저는 신경망, 혹은 단일 레이어 네트워크로 시작합니다. 즉, 가우시안 입력을 사용합니다. 따라서 4개의 입력을 가진 표준 가우시안 분포로 시작합니다. 그런 다음 무작위 가우시안 항목을 가진 무작위 4x16 행렬을 가져와서 행렬을 적용하여 16차원 벡터를 얻고, 렐루를 적용합니다. 렐루는 실제로 중요하지 않습니다. 질문은 결과로 나온 16개의 뉴런이 모두 양수인지 여부입니다. 그리고 이것은 신경망에 대한 낮은 확률 추정 질문의 매우 퇴화된 버전입니다. 그리고 실제로 저희는 단일 레이어임에도 불구하고 레이어별 접근 방식을 적용합니다. 왜냐하면 각 16개의 뉴런이 양수인지 여부에 대해 관심을 갖고 있기 때문에 렐루를 각 뉴런에 적용합니다. 저희는 각각의 “이것은 양수인가, 이것은 양수인가, 이것은 양수인가”를 한 번에 하나씩 전파합니다. 그리고 저희는 이 커널 접근 방식을 사용하여 기본적으로 대략적으로 말하면 샘플링보다 성능이 뛰어납니다. 음, 수직 이동은 액면 그대로 받아들이시면 안 됩니다. 왜냐하면 실제로는 샘플링의 x축에는 샘플 수를 사용하고, 이 결정론적 알고리즘에는 확장 항의 수를 사용하기 때문입니다. 그리고 실제로 이것을 실행하면 한 항은 한 샘플보다 훨씬 느립니다. 왜냐하면 샘플링은 최신 하드웨어 등에서 계산하기가 매우 쉽기 때문입니다. 따라서 이 두 곡선 사이의 이동은 액면 그대로 받아들이시면 안 됩니다. 하지만 기울기는 적어도 결정론적 알고리즘에서 약간 더 가파릅니다. 비록 지금까지는 적어도 그만큼 좋다는 것만 증명했지만요. 기울기는 같거나 더 좋아야 한다고 생각합니다. 좋습니다. 그것에 대해 질문 있으신가요? M에서 X를 샘플링할 때 어떻게 합니까? M이 그렇게 할 수 있는 클레임 목록과 같다면요. C는 클레임입니다. M은 일반 함수에 대한 것이므로 그렇게 할 수 없습니다. 그런 샘플을 추출할 수 없습니다.

일반 함수, 즉 커널 관련 작업을 의미하는군요. 음… 네, 알겠습니다.

음, 여기서 약간 거짓말을 했습니다. 질문하신 내용과 정확히 일치하는지는 모르겠지만, 여기서 약간 거짓말을 했습니다. 이 기댓값을 m과 f의 밀도 함수의 적분으로 바꿔야 합니다. m이 실제로 밀도 함수일 때는 수학적으로 동일하지만, m으로 사용하는 실제 함수가 항상 양수인 것도 아닙니다. 때로는 음수인 유사 분포를 사용하고 있습니다. 그래서 f도 기본적으로 다른 것 같습니다. f는 실제로 함수일 수도 있지만, 어쨌든 몇 가지 사항을 얼버무렸습니다. 좋습니다. 음, 네, 요약하자면, 이 낮은 확률 추정 문제, 적어도 안전 보장 문제의 핵심적인 부분을 포착한다고 주장했습니다.

그리고 네, 흥미로운 방향이라고 생각합니다. 안전에 대한 화이트 박스 접근 방식을 연구하는 다른 사람들도 “내 접근 방식이 이 문제에 도움이 되는가?”라는 질문을 고려해야 한다고 생각합니다. 그리고 네, 제가 준비한 것은 여기까지입니다. 감사합니다. 그녀의 주장에 정말 많은 노력을 기울였습니다.

네, 좋은 질문입니다. 화이트 박스와 블랙 박스에 대해 많이 이야기했고, 그 용어들을 정의하지 않고 넘어갔습니다. 회색 박스도 있는 것 같고, 무엇이 무엇인지 명확하지 않습니다. 제 생각에는 화이트 박스 접근 방식과 블랙 박스 접근 방식을 구분하는 좀 더 철학적인 관점이 있습니다. 이는 네트워크가 왜 작동하는지 이해할 수 있는 어떤 이유를 제공하는지에 대한 아이디어에 더 기반을 둡니다. 저희는 무작위 샘플링을 단순히 속성이 유지되는지 확인하는 것으로 생각하고, 왜 유지되는지는 실제로 알려주지 않는다고 생각합니다. 반면에, 이러한 종류의 알고리즘은 어떤 의미에서 속성이 왜 유지되는지 알려줄 것이라고 생각합니다. 왜냐하면 각 단계에서 한 분포에서 다음 분포로 어떤 추론을 수행하고 “이것이 유지되는 이유는…“과 같이 연역적인 논증을 하기 때문입니다. 그래서 저희는 연역적 논증과 귀납적 논증 사이의 다소 철학적인 구분을 가지고 있습니다. 그리고 저희가 휴리스틱 논증에 대해 발표한 논문은 이러한 의미에서 연역적 논증이 된다는 것이 무엇을 의미하는지 실제로 형식화할 수 있는지에 대한 아이디어에 관한 것입니다. 따라서 이것을 일종의 경계 복잡성 근사치를 생성하는 한 가지 경로로 생각할 수 있습니다.

[음악]

네, 아마도요. 네.

음, 앞부분에서 토큰 예측에 대해 말씀하셨죠. 네. 최종적으로 원하는 경험적 설정의 비전을 생각해 보면, 그것은 무엇일까요?

음, 이전 답변이 얼마나 설득력이 있었는지 모르겠습니다. 모델 뒤에 일련의 검사를 수행하는 또 다른 모델이 있다고 상상하는 것에 대한 답변이었습니다. 그게 조금이라도 설득력이 있었다면, 다시 말씀드려야 할까요?

음… 하지만…

그 다른 모델은 일종의 재앙 탐지를 하도록 훈련된 것 같습니다. 네, 제 생각에는, 네, 저희는, 말씀드렸듯이, 이론적인 도구를 사용하여 이 문제에 접근하려고 노력하고 있으며, 따라서 비공식적인 재앙 개념을 공식적인 것으로 대체함으로써 몇 가지 단순화를 했습니다. 음, 좋습니다. 적어도 지금은 괜찮다고 생각하는 몇 가지 이유가 있습니다. 음, 네, 첫째로…

음, 네, 만약 여러분이 문제 있는 것들을 탐지하도록 또 다른 모델을 훈련시킬 수 있다면, 그것은 재앙에 대한 공식적인 정의를 제공하는 것입니다. 하지만 실제로 저희는 휴리스틱 논증과 좀 더 전통적인 경험적 접근 방식을 어떻게 결합할지에 대해 약간 생각해 보았습니다. 음, 예를 들어, 질문하신 내용과 정확히 일치하지는 않지만, 이 입력 분포도 모호하고 정의되지 않은 것에서 형식적으로 정의된 것으로 변경했습니다. 그리고 모델이 학습하는 것들은 입력 분포의 경험적 특징일 뿐이며, 그에 대한 이유나 설명이 없을 수도 있습니다. 그래서 저희는 이러한 알고리즘을 경험적으로 규칙성을 발견할 수 있게 해주는 어떤 종류의 접근 방식과 어떻게 결합할 수 있을지에 대해 약간 생각해 보았습니다. 하지만 아직 명확한 답을 가지고 있지는 않습니다. 그래서 그다지 만족스럽지 않을 수도 있습니다. 분류기 설정에서 한 가지 언급하자면, 모델과 분류기가 있을 때 이 접근 방식으로 분류기가 지수적인 시간을 걸리게 만들 수 있습니다. 예를 들어, 엄청난 양의 무작위 비트 샘플을 입력으로 줄 수 있습니다. 따라서 이것을 해결하면 단순히 필터링하는 것보다 훨씬 강력한 작업을 수행할 수 있다고 생각합니다. 클린 체인 알고리즘이 무엇인지 생각해 보셨는지 여쭤봐도 될까요? 네, 저는 그 특정 알고리즘에 익숙하지 않습니다. 저희가 생각하고 있는 종류의 것들은… 음, 아마도 비슷한 접근 방식 중 하나는 삭제 전파일 것입니다. 음, 그리고 저희는 그것과 다소 유사한 변종들을 살펴보았지만, 간결하게 설명할 좋은 방법이 없습니다. 다른 질문 있으신가요? [박수] 그렇군요. 네. 좋은 것은 끝이 있어야죠.