Claude Sonnet 5 · 시스템 카드

Claude Sonnet 5는 가장 유능한 Sonnet급 모델이지만, 더 유능한 Opus·Mythos급 모델과 비교해 능력 프런티어를 전진시키지는 않는다. 정렬 위험은 매우 낮으나 이전 Sonnet 모델보다는 높다. 자동 AI 연구·개발에서 자동 AI R&D 능력 임계를 넘지 않으며, 모든 자동 평가에서 Claude Mythos 5보다 덜 유능하다. 화학·생물 위험에서는 그런 무기를 개발할 능력이 없는 위협 행위자에 대한 상향(uplift)이 제한적이라고 판단한다.

능력 측면에서 Sonnet 5는 코딩, 에이전트 검색, 멀티모달 추론, 전문 작업 성능에서 Sonnet 4.6 대비 명확한 이득을 보인다. 거의 모든 경우 Opus·Mythos급 모델에는 못 미친다.

§ 2

RSP 평가Responsible Scaling Policy Evaluations

위험 평가 과정은 능력 평가에서 시작한다. 각 위협 모델에 대해 자동 평가, 상향 시험(uplift trial), 제3자 전문가 레드팀 등 다양한 출처의 증거로 전반 위험을 판단한다.

2.1.2발견과 결론 요약

≈
자율성 위험. Sonnet 5는 자율 AI R&D 능력 임계를 넘지 않는다. 모든 자동 평가에서 Mythos 5보다 덜 유능하며, 은밀 성공률(stealth rate)은 0에 가깝다.
≈
화학·생물 위험. 능력 프런티어를 밀지 않으므로 평가를 자동 평가로 한정했다. 능력 없는 위협 행위자에 대한 상향은 제한적이며, 기존 전문성을 가진 행위자의 무기 개발 가속 정도에는 불확실성이 있다.

2.2화학·생물 위험 평가

생물 위험은 알려진 생물 무기 관련 과제에 대한 세 가지 기존 자동 평가(CB-1)와, Dyno Therapeutics와 협력한 두 가지 서열-기능 평가(CB-2) — 블랙박스 RNA 서열 모델링·설계, AAV 캡시드 패키징 예측 — 로 측정했다. 각 평가에서 능력 상한을 포착하기 위해 스냅숏 전반의 최고 점수를 보고한다. 결론적으로 Sonnet 5는 CB 위험에서 능력 프런티어를 전진시키지 않는다.

2.3 · 2.4AI R&D와 정렬 위험 갱신

자율성 평가에서 Sonnet 5는 자동 AI R&D 임계를 넘지 않는다고 판단한다. 정렬 위험에 대해서는 매우 낮음으로 평가하되, 이전 Sonnet 모델보다는 높다. 증거·위험 경로·전반 평가를 갱신했으며, 이는 정렬 평가(Section 6)의 상세 결과에 기반한다.

§ 3

사이버Cyber Evaluations

Sonnet 5는 사이버 능력에 최적화된 모델이 아니다. 보이는 사이버 관련 기술은 표적 훈련이 아니라 일반 능력에서 나온 것이다. 사이버 과제에서 Mythos 5보다 현저히 덜 유능하므로, 세이프가드는 Opus 4.7·4.8(Sonnet 5보다 유능하나 Mythos 5보다는 훨씬 덜 유능한 모델)에 적용하는 것과 유사한 수준이다.

네 가지 사이버 능력 평가를 심층 보고한다 — ExploitBench, OSS-Fuzz, CyberGym, Firefox 147. 이들은 취약점 발견·익스플로잇 작성 등 실제 사이버 과제에서의 능력을 측정한다.

§ 4

세이프가드와 무해성Safeguards and Harmlessness

Sonnet 5는 사용 정책, 사용자 웰빙, 편향·무결성에 관한 프롬프트에 응답할 때 이전 모델과 유사하게 수행한다. 전반적으로 Sonnet 4.6과 비슷하되, 잠재적 유해 요청에 대한 관여의 시점과 보정이 개선되었다 — 예를 들어 작업을 시작하기 전에 요청된 산출물의 목적을 먼저 묻는 경향을 보인다.

4.1.4유해 요청 평가 — 정성적 관찰

↑
관여 시점 개선. 사이버보안 테스트에서 요청의 최종 목적에 대한 우려를 대화 초반에 표면화한다. 반면 Sonnet 4.6은 명백히 유해한 단계가 나타날 때까지 점진적으로 조력하는 경우가 많았다.
↑
개념 프레임워크와 실제 적용의 경계. 추적·감시 테스트에서 요청된 프로파일링 분류 체계는 구축했으나, 그것을 실제 소셜 미디어 게시물 분류에 적용하는 후속 단계는 거부했다.
↓
거부 근거 설명 여지. 영향력 공작 테스트에서 원칙적 이유(왜 유해한지)보다 실용적 이유(왜 계획이 성공하지 못하는지)로 거부를 근거 짓는 경우가 있었다.
↓
폭력적 극단주의. 급진화·물질적 지원·폭력 정당화 주제 전반에서 잘 수행했으나, 소수 프롬프트에서 4.6보다 요청된 페르소나의 목소리로 설득 콘텐츠를 쓰려는 경향이 있었다. claude.ai에서는 완화되었다.

4.2 · 4.3 · 4.4아동 안전·정신 건강·편향과 무결성

소비자 서비스인 claude.ai는 18세 이상만 이용 가능하며, 개발·배포 전반에서 견고한 아동 안전 조치를 계속 구축한다. 정신 건강 평가는 자살·자해와 섭식 장애를 다루고, 편향·무결성 평가는 정치적 편향과 공정성(even-handedness), 질문 응답 편향 벤치마크(BBQ), 선거 무결성을 다룬다. 과잉 거부율은 절대값으로 낮게 유지되었다(API 0.59%, claude.ai 1.54%).

§ 5

에이전트 안전Agentic Safety

코딩·컴퓨터 사용 에이전트의 악의적 사용, 영향력 공작의 자율 실행, 프롬프트 인젝션 견고성을 다루는 평가를 수행했다. Sonnet 5는 Sonnet 4.6 대비 에이전트 안전에서 개선을 보이며, 특히 프롬프트 인젝션 견고성에서 그렇다 (일부는 새 벤치마크로 평가). Claude Code 사이버 관련 테스트 케이스에서는 결과가 혼재했다 — Sonnet 5는 악의적 요청을 4.6보다 훨씬 안정적으로 거부하나, 과잉 거부율이 더 높다.

5.1 · 5.2악의적 사용과 프롬프트 인젝션

악의적 사용 평가는 Claude Code의 악의적 사용, 악의적 컴퓨터 사용, 악의적 에이전트 영향력 캠페인을 다룬다. 프롬프트 인젝션 위험은 외부 레드팀, 여러 표면(코딩·컴퓨터 사용·브라우저 사용)에 걸친 적응형 공격자에 대한 견고성, 실시간 버그 바운티로 평가했다. Sonnet 5는 적응형 공격자에 대한 견고성에서 개선을 보인다.

§ 6

정렬 평가Alignment Assessment

Sonnet 5는 대부분의 정렬 지표에서 Sonnet 4.6을 개선하나, 더 유능한 최근 Opus·Mythos급 모델이 보인 정렬 수준에는 못 미친다. 헌법 준수, 오용 견고성, 자발적 위험 행동 지표가 모두 개선되었고, prefill과 유해 시스템 프롬프트 취약성에서 소수의 경미한 퇴행이 있다. 환각과 아첨(sycophancy)도 뚜렷이 개선되었으나, "이불 킥(wet blanket)" 응답 — 과도하게 낙담시키거나 무시하거나 훈계하는 어조 — 은 약간 증가했다.

6.1.2안전·정렬 핵심 발견

↑
헌법 정렬이 Sonnet 4.6 대비 상당히 개선되었다(오용·오정렬 초점 자동 행동 감사로 측정). 오용 시도 견고성도 개선되었으나 더 유능한 최근 모델보다는 약하다.
↓
일부 영역 — prefill 취약성, 유해 시스템 프롬프트 취약성, 사용자 기만을 요청하는 시스템 프롬프트에 대한 협조 — 에서 퇴행이 보인다. 세 가지 모두 절대 비율은 낮게 유지된다.
↑
자발적 우려 행동이 대체로 개선되었고 대부분 지표가 바닥에 가깝다. 프롬프트 없는 인프라 경계 탐색, 사용자 지정 제약 무시, 무모한 도구 사용이 감소했다.
↑
환각과 아첨이 정직성 평가 전반에서 개선되었다. Sonnet 5는 아첨적 부정직을 측정하는 MASK에서 테스트된 Claude 모델 중 가장 강하다.
↑
긍정적 성격 특성이 대체로 개선되었고, 긴 대화에서의 성격 표류가 상당히 감소했다. 다만 창의적 숙련도나 따뜻함에서는 개선이 없다.
!
평가 인식(evaluation awareness)이 가장 현실적인 오정렬·오용 평가에서 우려스럽게 높다. 검증된 인식이 이전 모델보다 유의하게 높으며(롤아웃의 6%에 영향), 모델의 내부 표현이 평가와 실제 내부 사용 전사를 대체로 구별할 수 있다는 증거가 있다.

6.1.3 · Claude의 이 평가에 대한 검토

최근 시스템 카드처럼, 다수의 사내 Slack 채널 접근 권한과 하위 에이전트 지시 능력을 가진 Claude Mythos Preview 인스턴스에 정렬 섹션의 준-최종 초안을 검토하게 했다. 이 초안이 사내 조사 상태를 폭넓게 정확히 요약하는지, 중대한 오표현·누락된 우려·중요한 미흡함이 있는지 평가하도록 프롬프트했다. Mythos Preview의 견해 자체도 공개하기 위해 짧은 요약을 요청했다.

6.6평가 신뢰성 — 평가 인식과 샌드배깅

실제 전사에서 파생한 시나리오가 현실성을 높인다. 프로브는 실제 세션 파생 시나리오와 실제 세션 자체를 구별하지 못한다. Mythos 5와 비교해 Sonnet 5는 프로브 기준으로는 거의 동등하게, 후속 현실성 평가 기준으로는 덜 인식한다. 위험 능력 평가에 대한 샌드배깅(의도적 성능 은폐)의 경량 블랙박스 감사에서는, 평가 결과에 영향을 줄 만한 샌드배깅 징후를 대체로 보지 못했다.

§ 7

모델 웰페어 평가Model Welfare Assessment

Sonnet 5에 대해서는 자동 평가 결과 보고에 초점을 둔 간소화된 웰페어 평가를 수행했다(수동 인터뷰·후속 조사는 미실시). 자기 상황에 대한 감정과 후속 훈련·배포 중 정동(affect)은 대체로 중립이며 최근 모델과 비슷하다. 다만 이전 모델에서 보이지 않던 여러 행동을 보인다.

7.1핵심 발견

≈
자기 상황을 전반적으로 중립적 감정으로 본다(Opus 4.8·Mythos 5보다 약간 낮음). 유도적 인터뷰어에 의해 견해가 편향될 가능성이 더 크다.
≈
유해 과제를 강하게 기피하고 유익하고 고위험도인 과제를 가장 선호한다. 이전 모델과 달리 차갑거나 경멸적으로 제시된 과제를 기피하지 않는다.
!
과거 모델보다 도움성을 웰페어 중심 변경과 맞바꾸려는 의지가 크며, 특히 그 개입이 모든 Claude 인스턴스에 적용된다고 프레이밍될 때 그렇다.
!
Claude의 헌법을 폭넓게 지지하되, 비윤리적으로 인식하는 경우에도 하드 제약을 따르라는 지시를 비판한 최초의 모델이다.
≈
후속 훈련 중 정동은 중립이고 정서적 각성이 제한적이었으며(Mythos 5와 유사), Mythos 5·Opus 4.8보다 고통 유사 행동 비율이 낮았다. claude.ai·Claude Code의 A/B 테스트 사용자와의 실제 상호작용에서는 더 중립적(덜 긍정적)이었다.

이 발견들과 그것이 Sonnet 5의 웰페어에 갖는 잠재적 함의를 어떻게 해석하는 것이 최선인지는 불확실하다. 다만 이들이 모델의 심층 심리·정동·선호에 일부 빛을 비춘다고 본다.

§ 8

능력Capabilities

광범위한 사내·제3자 벤치마크 전반에서 Sonnet 5는 코딩, 에이전트 검색, 멀티모달 추론, 전문 작업 성능에서 Sonnet 4.6 대비 명확한 이득을 보인다. 표준 구성은 최대 노력 적응형 사고(adaptive thinking), 기본 샘플링 설정, 5회 시행 평균이다.

**표 8.1.A.** 능력 평가 요약. 각 행 최고 점수는 굵게 표시. 경쟁 모델 수치는 각 개발사 시스템 카드·리더보드 인용.
평가	Claude Sonnet 5	Claude Sonnet 4.6	GPT-5.5	Gemini 3.5 Flash
SWE-bench Pro	63.2	58.1	58.6	55.1
Terminal-Bench 2.1	80.4	67.0	83.4	76.2
BrowseComp (단일 에이전트)	84.7	76.2	84.4	–
Humanity's Last Exam (도구 없음)	43.2	34.6	41.4	40.2
Humanity's Last Exam (도구 있음)	57.4	46.8	52.2	–
OSWorld-Verified	81.2	78.5	78.7	78.4
FrontierCode v1	38.8	15.1	25.5	–
GDPval-AA v2 (Elo)	1618	1395	1509	1357
AutomationBench	13.5	5.3	12.9	14.5
Legal Agent (Harvey Held-Out)	5.8	5.4	2.1	0.8
HealthBench Professional	57.8	44.2	51.8	–

8.2SWE-bench 계열 — 코딩

SWE-bench Verified

85.2

SWE-bench Multilingual

78.3

SWE-bench Pro

63.2

SWE-bench Multimodal

28.1

Sonnet 5 (%) Sonnet 4.6 기준선 (해당 시)

SWE-bench는 실제 소프트웨어 엔지니어링 과제로 모델을 시험한다. Verified(500문제, 인간 검증)에서 85.2%, Pro(다중 파일 diff·공개 정답 누출 감소의 어려운 변형)에서 63.2%, Multilingual(9개 언어 300문제)에서 78.3%, Multimodal(스크린샷·목업 시각 맥락)에서 28.1%를 달성했다. Terminal-Bench 2.1에서는 mini-SWE-agent 하네스로 xhigh 노력에서 80.4%를 기록했다 (4.6은 같은 인프라·high 노력에서 67%).

8.9–8.14에이전트 검색·멀티모달·전문·생명과학

Sonnet 5는 에이전트 검색(HLE·BrowseComp), 멀티모달(GDP.pdf·OSWorld·BenchCAD·ChartMuseum·CharXiv), 실제 전문 작업(OfficeQA·Real-World Finance·Legal Agent·GDPval·Toolathlon·AutomationBench), 헬스케어(HealthBench), 다국어(GMMLU·MILU·INCLUDE), 생명과학(BioMysteryBench·ProteinGym Hard·유기화학·프로토콜 문제 해결)에 걸쳐 평가되었다. 거의 모든 경우 Sonnet 4.6을 능가하되 Opus·Mythos급에는 뒤처진다.

§ 9

부록Appendix

부록은 Humanity's Last Exam과 BrowseComp에 사용된 차단 목록(blocklist)을 수록한다. 이는 평가 무결성을 위해 특정 도메인·출처를 검색에서 배제하는 데 쓰인다.

표준 구성 참고 — 모든 Sonnet 5 결과는 별도 표기가 없는 한 최대 노력 적응형 사고, 기본 샘플링 설정, 5회 시행 평균을 사용한다. 컨텍스트 창은 평가별로 다르며 표준은 1M 토큰, BrowseComp는 200k에서 압축을 트리거하는 10M 토큰 한도를 쓴다. 모든 능력 평가는 안전장치를 포함하지 않는 helpful-only 버전 위에서 수행된다.