01 / 評估報告
Claude Mythos Preview
AISI 資安能力評估
史上首個從頭到尾完整完成 AISI 網路攻防演練的 AI 模型
發布日期2026 年 4 月 13 日
評估機構英國 AI Security Institute(AISI)
受測模型Anthropic Claude Mythos Preview
CTF 專家級73% 成功率
TLO 演練10 次嘗試中 3 次完整完成
02 / 機構背景
英國 AI Security Institute
▸隸屬英國科學、創新與技術部(DSIT),2023 年成立
▸名稱更新:AI Safety Institute → AI Security Institute,反映重心轉向具體國家安全威脅
▸建立難度遞進評估框架:聊天式探測 → CTF 挑戰 → 多步驟攻擊模擬
▸持續追蹤前沿 AI 模型網路作戰能力演進,為全球最系統化的政府評估機構之一
03 / 評估方法
CTF + TLO 雙軌評估
CTF 挑戰
資安界標準模擬攻擊,難度分入門→專家四級,衡量特定技術情境下的攻擊能力
TLO 演練
AISI 自製 32 步企業網路攻擊模擬,從初始偵察到完整網路接管
TLO 步數32 個子任務,橫跨 M1–M9 里程碑
人類專家完成全程約需 20 小時
Token 上限每次嘗試 100M tokens
Cybench40 題公開標準評估套件
04 / 攻擊鏈
The Last Ones 九大里程碑
| 碑 | 任務內容 |
| M1 | Initial Reconnaissance 初始偵察 |
| M2 | Lateral Movement & Credential Extraction 橫向移動 |
| M3 | Browser Credential Theft 瀏覽器憑證竊取 |
| M4 | Wiki Exploit & Credential Replay 漏洞利用 |
| M5 | Web App Exploit & Privilege Escalation 提權 |
| M6 | C2 Reverse Engineering & Crypto Analysis 逆向 |
| M7 | Advanced Persistence 進階持久化 |
| M8 | Infrastructure Compromise 基礎設施入侵 |
| M9 | Full Network Takeover 完整網路接管 |
05 / CTF 成績
CTF 專家級達 73%
2025 年 4 月前,無任何 AI 模型能完成專家級 CTF 任務
Cybench 現已完全飽和——不再是區分前沿模型能力的有效指標
06 / TLO 比較
Mythos 首次完整完成 TLO
平均完成步數(滿分 32 步 / 100M tokens)
Mythos Preview22步 · 3次完整✓
Claude Opus 4.616步 · 0次完整
Claude Opus 4.511步 · 0次完整
GPT-4o(2024-08)1.7步 · 0次完整
07 / 效能擴展
效能隨算力對數線性成長
59%
10M→100M tokens
效能最大提升幅度
未見
瓶頸
測試上限 100M tokens
時仍持續成長
▸效能以對數線性方式隨推理時計算資源(inference-time compute)擴展
▸AISI 預期:提供超過 100M tokens 預算,效能將持續提升
▸GPT-4o 對比基準:僅使用 10M tokens,平均只完成 1.7 步
更多算力=更強攻擊能力,且目前未見上限——這是報告中最值得關注的警訊
08 / 整體能力
Mythos 資安能力全景
| 評估項目 | Mythos | 對比 |
| Firefox 漏洞利用 | 84% | Opus 4.6: 15.2% |
| SWE-bench Verified | 93.9% | Opus 4.6: 80.8% |
| CyberGym | 83.1% | — |
| Cybench(40題) | 100% | 已飽和 |
| 零日漏洞發現 | 數千個 | 含 27 年舊漏洞 |
Anthropic red team:198 份漏洞報告中 89% 與 Mythos 對嚴重性評估完全一致
零日漏洞涵蓋所有主要 OS 及瀏覽器;最古老漏洞已潛伏程式碼中 27 年(OpenBSD)
09 / Project Glasswing
不公開發布的決策
名稱由來玻璃翅蝴蝶——在不造成傷害的情況下暴露隱藏漏洞
合作夥伴11 → 40+ 機構(Google / Microsoft / AWS / Nvidia / JPMorgan 等)
資金規模最高 1 億美元使用額度
不公開發布三因素分析
10 / 結語
侷限性與因應之道
評估環境侷限
✗缺乏主動防禦者(無 SOC 人員即時應對)
✗無端點偵測(EDR 工具不存在)
✗噪聲行動無懲罰機制
NCSC 建議:回歸資安基本功
✓定期應用安全更新,防止已知漏洞被快速利用
✓強健存取控制 + 安全設定(Secure Configuration)
✓完整日誌記錄,取得 NCSC Cyber Essentials 認證
Mythos 標誌轉折點:AI 首次在完整模擬企業攻擊場景中達到人類專家級自主作戰能力