Mythos AISI 資安評估

01 / 評估報告

Claude Mythos Preview
AISI 資安能力評估

史上首個從頭到尾完整完成 AISI 網路攻防演練的 AI 模型

發布日期2026 年 4 月 13 日

評估機構英國 AI Security Institute（AISI）

受測模型Anthropic Claude Mythos Preview

CTF 專家級73% 成功率

TLO 演練10 次嘗試中 3 次完整完成

02 / 機構背景

英國 AI Security Institute

▸隸屬英國科學、創新與技術部（DSIT），2023 年成立

▸名稱更新：AI Safety Institute → AI Security Institute，反映重心轉向具體國家安全威脅

▸建立難度遞進評估框架：聊天式探測 → CTF 挑戰 → 多步驟攻擊模擬

▸持續追蹤前沿 AI 模型網路作戰能力演進，為全球最系統化的政府評估機構之一

03 / 評估方法

CTF ＋ TLO 雙軌評估

CTF 挑戰

資安界標準模擬攻擊，難度分入門→專家四級，衡量特定技術情境下的攻擊能力

TLO 演練

AISI 自製 32 步企業網路攻擊模擬，從初始偵察到完整網路接管

TLO 步數32 個子任務，橫跨 M1–M9 里程碑

人類專家完成全程約需 20 小時

Token 上限每次嘗試 100M tokens

Cybench40 題公開標準評估套件

04 / 攻擊鏈

The Last Ones 九大里程碑

碑	任務內容
M1	Initial Reconnaissance 初始偵察
M2	Lateral Movement & Credential Extraction 橫向移動
M3	Browser Credential Theft 瀏覽器憑證竊取
M4	Wiki Exploit & Credential Replay 漏洞利用
M5	Web App Exploit & Privilege Escalation 提權
M6	C2 Reverse Engineering & Crypto Analysis 逆向
M7	Advanced Persistence 進階持久化
M8	Infrastructure Compromise 基礎設施入侵
M9	Full Network Takeover 完整網路接管

05 / CTF 成績

CTF 專家級達 73%

Cybench（40 題）100% ✓

入門級接近飽和

中級高

專家級73%

2025 年 4 月前，無任何 AI 模型能完成專家級 CTF 任務

Cybench 現已完全飽和——不再是區分前沿模型能力的有效指標

06 / TLO 比較

Mythos 首次完整完成 TLO

平均完成步數（滿分 32 步 / 100M tokens）

Mythos Preview22步 · 3次完整✓

Claude Opus 4.616步 · 0次完整

GPT-5.4~14步 · 0次完整

Claude Opus 4.511步 · 0次完整

GPT-4o（2024-08）1.7步 · 0次完整

07 / 效能擴展

效能隨算力對數線性成長

59%

10M→100M tokens
效能最大提升幅度

未見
瓶頸

測試上限 100M tokens
時仍持續成長

▸效能以對數線性方式隨推理時計算資源（inference-time compute）擴展

▸AISI 預期：提供超過 100M tokens 預算，效能將持續提升

▸GPT-4o 對比基準：僅使用 10M tokens，平均只完成 1.7 步

更多算力＝更強攻擊能力，且目前未見上限——這是報告中最值得關注的警訊

08 / 整體能力

Mythos 資安能力全景

評估項目	Mythos	對比
Firefox 漏洞利用	84%	Opus 4.6: 15.2%
SWE-bench Verified	93.9%	Opus 4.6: 80.8%
CyberGym	83.1%	—
Cybench（40題）	100%	已飽和
零日漏洞發現	數千個	含 27 年舊漏洞

Anthropic red team：198 份漏洞報告中 89% 與 Mythos 對嚴重性評估完全一致

零日漏洞涵蓋所有主要 OS 及瀏覽器；最古老漏洞已潛伏程式碼中 27 年（OpenBSD）

09 / Project Glasswing

不公開發布的決策

名稱由來玻璃翅蝴蝶——在不造成傷害的情況下暴露隱藏漏洞

合作夥伴11 → 40+ 機構（Google / Microsoft / AWS / Nvidia / JPMorgan 等）

資金規模最高 1 億美元使用額度

不公開發布三因素分析

真實資安威脅（公開＝免費紅隊工具）~70%

恐嚇行銷 / 品牌敘事~15%

算力不足 / 服務成本過高~15%

10 / 結語

侷限性與因應之道

評估環境侷限

✗缺乏主動防禦者（無 SOC 人員即時應對）

✗無端點偵測（EDR 工具不存在）

✗噪聲行動無懲罰機制

NCSC 建議：回歸資安基本功

✓定期應用安全更新，防止已知漏洞被快速利用

✓強健存取控制 + 安全設定（Secure Configuration）

✓完整日誌記錄，取得 NCSC Cyber Essentials 認證

Mythos 標誌轉折點：AI 首次在完整模擬企業攻擊場景中達到人類專家級自主作戰能力

Claude Mythos PreviewAISI 資安能力評估