DeepMind 发布 AI 控制路线图，确保智能体安全

AI 智能体正在改变我们与技术的关系。通过自主执行从网络防御到科学发现和产品开发的复杂任务，这些系统正开启一个全新的生产力时代。仅在美国，到 2030 年 AI 智能体就可能创造 2.9 万亿美元的经济价值。

随着这些智能体能力越来越强，它们也需要更精密的安全保障。为此，Google DeepMind 开发了《AI 控制路线图》：一个用于构建和管理谷歌内部部署的先进 AI 的框架。这种“纵深防御”方法超越了传统的模型对齐，增加了一层关键的系统级安全，即使对齐不完美也能提供保障。该方法或可成为整个行业的模板。

理解 AI 控制

我们的安全方法首先建立在坚实的基础之上，整合了沙盒、端点安全和提示注入防御等传统措施。在此基础上，AI 控制路线图将模型对齐（即训练 AI 使其天生安全、有用）作为主要防线。它通过将内部智能体视为可能未对齐的系统来提供额外的安全层，从而在对齐不完美时也能提供保证。

可以将其想象成一位拥有双重控制的驾驶教练。教练信任学员，但随时准备在出现错误时接管方向盘或踩下刹车。类似地，我们的 AI 控制系统根据智能体的已验证行为授予权限，通过受控、递增的访问来建立信任。

我们的路线图基于一个简单但谨慎的假设：如果一个高度能力的 AI 智能体与我们的目标不一致并做出意外行为，该怎么办？为此，我们的计划聚焦于三个关键领域。

首先，遵循网络安全最佳实践，我们开发了一个新颖的 AI 威胁建模框架。路线图将不可信的 AI 智能体视为潜在的“内部威胁”——类似于公司会如何对待一个已经拥有办公室访问权限的潜在不轨员工。我们基于行业标准的 MITRE ATT&CK 框架（一个基于真实观察的全球可访问敌方战术和技术知识库）将潜在攻击分解为更小的战术和技术。这使我们能够系统地追踪风险，在造成损害前发现不良行为，并安全地进行演练以测试防御措施是否真正有效。

其次，我们制定了部署 AI 控制缓解措施的计划来应对这些风险。

识别问题（检测）：监控是 AI 控制的支柱。我们使用其他可信的 AI 系统作为“监督者”，持续检查工作智能体的推理、行动和计划，看其是否偏离正轨。
管理问题（预防与响应）：如果监督者发现智能体试图采取有害行为，它可以在损害发生前介入阻止该行动。

最后，为确保系统功能正常，我们持续在三个关键指标上衡量性能：覆盖率（被监控的流量比例）、召回率（被捕获的未对齐行为比例）和响应时间。

随着 AI 更智能而扩展安全

随着 AI 模型不断进步，我们的防御也必须同步加强。在《AI 控制路线图》中，我们将安全协议映射到 AI 能力在两个关键方面的可衡量里程碑：

逃避检测的能力：今天，我们监控模型的可见思维链。然而，随着模型学会隐藏其推理——要么通过 _ 监控感知 _（知道被监控）或 _ 不透明推理 _（不使用可见文本进行推理）——仅仅读取其言语推理将不够。我们将需要分析其行为，并可能检查模型内部工作原理。
造成潜在危害的能力：对于低风险和可逆的行动，我们可以依靠延迟审查转录并在问题发生后迅速修复（异步响应）。对于特别高风险的行动，如重大网络攻击，我们必须转向实时预防，在有害行动执行前阻止它们（同步响应）。换句话说，我们的响应策略必须随威胁严重程度而扩展。

AI 控制路线图根据部署模型的能力推荐安全措施。模型的逃避检测能力决定检测级别（D1-D4），模型的攻击执行能力决定预防与响应级别（R1-R3）。

分析百万条智能体轨迹以指导实时监控

要构建这些系统，我们需要数据。我们的团队已经构建了一个异步监控系统的内部原型，该原型审查编码智能体的轨迹，并将发现报告给人类审核。每个标记事件都根据路线图中的威胁分类学进行归类。

我们已经分析了百万条编码智能体任务，获得了宝贵的洞察来完善我们的安全协议，使我们能够超越简单的关键词过滤，识别高信号的行为模式。例如，这项研究对于为 Gemini Spark 智能体构建实时监控器至关重要，使我们能够实时响应突发问题，如意外数据删除。

需要指出的是，我们的数据表明，大多数被标记的事件并非源于对抗意图；相反，它们往往源于智能体的误解或过度积极去实现用户的目标。理解这些细微差别对于完善我们的安全协议至关重要。

保护智能体生态系统是共同责任

AI 控制路线图是我们多层智能体安全方法中的关键一环。通过将这些协议与我们的更广泛基础设施整合，我们正在扩展内部安全以安全管理最先进的 AI 模型。

此外，这种多层智能体安全方法应该成为行业、政策制定者和学术界的合作重点。通过围绕最佳实践和标准协调生态系统，我们可以赋能网络防御者并构建社会韧性。因此，今天我们还发布了一份面向政策制定者的技术框架《AI 智能体安全的三层》。该论文详细说明了如何在单个智能体层面、多智能体系统中改善安全，以及如何赋能网络防御者并在更广泛的生态系统中构建韧性。

我们计划在这些框架的基础上，自信地部署强大的 AI，同时继续为未来构建安全基础。

完整技术报告请见：
AI 控制路线图

原文链接：Google DeepMind
本文由前途科技编辑整理

DeepMind 发布 AI 控制路线图，确保智能体安全

理解 AI 控制

其次，我们制定了部署 AI 控制缓解措施的计划来应对这些风险。

识别问题（检测）：监控是 AI 控制的支柱。我们使用其他可信的 AI 系统作为“监督者”，持续检查工作智能体的推理、行动和计划，看其是否偏离正轨。
管理问题（预防与响应）：如果监督者发现智能体试图采取有害行为，它可以在损害发生前介入阻止该行动。

最后，为确保系统功能正常，我们持续在三个关键指标上衡量性能：覆盖率（被监控的流量比例）、召回率（被捕获的未对齐行为比例）和响应时间。

随着 AI 更智能而扩展安全

随着 AI 模型不断进步，我们的防御也必须同步加强。在《AI 控制路线图》中，我们将安全协议映射到 AI 能力在两个关键方面的可衡量里程碑：

逃避检测的能力：今天，我们监控模型的可见思维链。然而，随着模型学会隐藏其推理——要么通过 _ 监控感知 _（知道被监控）或 _ 不透明推理 _（不使用可见文本进行推理）——仅仅读取其言语推理将不够。我们将需要分析其行为，并可能检查模型内部工作原理。
造成潜在危害的能力：对于低风险和可逆的行动，我们可以依靠延迟审查转录并在问题发生后迅速修复（异步响应）。对于特别高风险的行动，如重大网络攻击，我们必须转向实时预防，在有害行动执行前阻止它们（同步响应）。换句话说，我们的响应策略必须随威胁严重程度而扩展。

AI 控制路线图根据部署模型的能力推荐安全措施。模型的逃避检测能力决定检测级别（D1-D4），模型的攻击执行能力决定预防与响应级别（R1-R3）。

分析百万条智能体轨迹以指导实时监控

保护智能体生态系统是共同责任

我们计划在这些框架的基础上，自信地部署强大的 AI，同时继续为未来构建安全基础。

完整技术报告请见：
AI 控制路线图

原文链接：Google DeepMind
本文由前途科技编辑整理

DeepMind 发布 AI 控制路线图，确保智能体安全

理解 AI 控制

随着 AI 更智能而扩展安全

分析百万条智能体轨迹以指导实时监控

保护智能体生态系统是共同责任

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

Anthropic推出Claude Tag：Slack里的AI队友

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

Legion LegalTech 起诉美政府封禁 Anthropic 模型

英伟达被禁AI芯片黑市价格翻倍

Agility Robotics借SPAC上市估值25亿美元

免费获取 AI 落地指南

DeepMind 发布 AI 控制路线图，确保智能体安全

理解 AI 控制

随着 AI 更智能而扩展安全

分析百万条智能体轨迹以指导实时监控

保护智能体生态系统是共同责任

想了解 AI 如何助力您的企业？

24小时热榜

Claude Tag 发布：团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

Anthropic推出Claude Tag：Slack里的AI队友

Meta 推出自有品牌 AI 智能眼镜，售价 299 美元起

Legion LegalTech 起诉美政府封禁 Anthropic 模型

英伟达被禁AI芯片黑市价格翻倍

Agility Robotics借SPAC上市估值25亿美元

免费获取 AI 落地指南