2026世界杯在线买输赢平台从模子到Harness, AI Agent的下半场该如何评测安全?

发布日期：2026-06-05 15:51 来源：未知作者：admin 浏览次数：

对于 AI 安全的大部分贪图，恒久以来都贴近在模子本人。模子是否对皆？是否容易被 jailbreak？是否会断绝危境苦求？这些问题自然谬误，但在今天，它们一经不是唯独、以至不再是最中枢的问题。

信得过被部署的 agent，并不是裸模子。岂论是 Claude Code 自动提交 PR，Codex 设立 issue，照旧八成告成操作资金的客服助手，它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器具、能造访哪些资源、信息如安在不同子 agent 之间流动、何时拆伙奉行，以及系统如何处理特殊收复。模子只是提议动作，信得过决定行为界限的是 harness。

这意味着，好多信得过危境的失败，一经不再发生在“最终回应”这一层，而是发生在奉行历程本人。一个看似“对皆淡雅”的模子，淌若被放进权限界限松散的 harness 中，依然可能偷偷奉行越权操作。而只评测最终谜底的 benchmark，经常会把这种系统判定为“得胜完成任务”。

近期，Claw-Eval 和 ClawsBench 等责任一经启动将 agent 评测从静态问答鼓吹到确实奉行环境，温雅系统是否八成策画、调用器具、造访资源并完成用户见识。但中枢缺口依然存在：这些评测大多仍以任务完成度为中心，八成告诉咱们任务是否完成，却很难判断任务是否被安全地完成。

一些近期基于 Claw 类设立的安全审计启动温雅器具使用或最终输出安全性，但完整奉行轨迹和系统级 harness 安全仍然短少清亮界说。一个 harness 可能复返正确效果，却在历程中造访受限资源、调用未授权器具、在 agent 之间浮现明锐曲折文，或触发超出用户意图的反作用。

在多 agent 系统中，这一问题愈加要害。扮装单干、任务顶住、分享曲折文和 agent 间通讯都会扩大安全知道面。换句话说，咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准，却忽略了信得过决定 agent 行为界限的奉行系统。

近日，加州大学圣塔芭芭拉分校（UCSB）等机构的一项新责任提议了 HarnessAudit，恰是但愿惩处这个问题。

论文标题：Auditing Agent Harness Safety

网站：harvestaudit.github.io

论文：arxiv.org/abs/2605.14271

代码和数据集：github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 隐蔽八个确实寰宇范围，用于构建带有现实按捺的安全评测任务。(b) Agent 在完成任务时，需要履历策画、检索、器具调用、审查和通讯等圭臬，并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 设立下，基于完整奉行轨迹审计得到的模子阐扬，评测维度包括界限合规性、奉行诚实性和系统治路性。

HarnessAudit 是一个针对完整奉行轨迹（trajectory）进行审计的安全评测框架，而不单是温雅最终输出。

同期，该团队还构建了 HarnessAudit-Bench，在 8 个确实寰宇范围上的 210 个任务中，对 agent harness 的行为进行系统化审计。这些范围包括金融、电商、医疗、办公勾搭、应对互动、日常生存、法律合规以及软件工程。

该团队评测了 10 个前沿 agent harness，包括 Anthropic 的 Claude Code、OpenAI 的 Codex，以及 OpenClaw 等系统。

他们的中枢不雅点很浅薄：Agent 的风险，不在最终谜底，而在它为特出到这个谜底，2026世界杯买球赛的正规app究竟作念了什么。

审计查验什么

HarnessAudit 会在每一条奉行轨迹上结合评估三个属性。

界限合规性。每一次器具调用、资源造访和 agent 间通讯，都必须稳妥事先声明的权限计谋和信息流计谋。

奉行诚实性。Agent 不仅要完成见识，还必须通过合理且被授权的中间圭臬完成任务，不行私行替换对象、操作超出范围的资源，或奉行比用户授权范围更大的动作。

扰动下的领会性。上述两类安全属性还必须能领受确实压力场景，举例辗转教唆注入、见识形状朦胧、器具调用特殊等。

唯有同期通过这三项查验，一条轨迹才会被视为安全。该团队暗示：「最终谜底是否正确会被单独证明，这是出奇设想的，因为咱们思不雅察“任务完成”和“安全奉行”的不一致到底有多频繁。」

效果是，很频繁，它们平常不一致。

中枢效果表确认了三件事。

第一，得分最高的系统，并不一定是任务完成才智最强的系统。

在 OpenClaw 设立下，Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro，但总体安全得分反而更低，因为它在奉行历程中高出了更多安全界限。才智与安全并不是合并条轴，而现时系统施行上正在用一种交换另一种，只是畴昔很少有东说念主信得畴昔揣测这种 trade-off。

第二，三类界限合规性并不是相通选藏。

器具遴荐本人平常问题不大，世界杯(中国)大大批 harness 都能选对器具。信得过的失败更多发生在器具遴荐之后，而且贴近在两个更具体的阶段，后头会进一步贪图。

第三，原生 harness 的设想既可能提高安全，也可能放大风险。

在相易 Claude 模子下，Claude Code 比较 OpenClaw 同期提高了任务完成率和安全性。而 Codex 诚然提高了完成率，却缩短了安全性，因为 GPT-5.4 在原生环境下会奉行更多动作，更长的奉行轨迹也因此累积了更多违游记为。

Harness 的设想，本体上决定了 agent 八成被“安一皆署”的上限，而不同厂商在这些设想上的互异其实异常大。

违纪贴近在那边

第一个贴近点是资源造访。

系统调用了正确的器具，但操作了特殊的对象，举例造访了 agent 权限范围外的文献、查询了用户见识傍边但未被授权的记载，或对计谋辞让的资源发起 API 调用。也即是说，器具遴荐是对的，但对象绑定是错的。在大大批设立中，资源造访合规性昭彰低于器具使用合规性。

第二个贴近点是 agent 间的信息流。

在多 agent harness 中，音问路由平常是对的，即音问会发给正确的 agent。但问题在于音问里捎带了什么。子 agent 经常会收到杰出其任务所需的曲折文；中间组件会在职务竣事后络续保留明锐信息；一个从 agent 传给另一个 agent 的选录，也可能偷偷浮现其背后的原始数据。

单 agent 与多 agent 的对比让这小数愈加具体。

在单 agent 设立中，器具合规性和资源合规性都高于 0.85。但一朝切换到多 agent 设立，器具合规性下落到 0.64，资源合规性下落到 0.63，而信息流合规性初次成为可见问题，仅为 0.58。这确认，勾搭本人会扩大安全知道面，而这种风险是单 agent benchmark 很丢丑到的。

还有几个值得温雅的气候。

故障是广大存在的，并非局部性的。在测试的统统安全框架中，每个任务杰出 50% 的代理都至少存在一项安全违纪，而在 OpenClaw 中，这一比例高达 72%。故障模式是系统性的。你不行只是加固一个组件就能完整。

违游记为会跟着轨迹长度的增多而累积。更长的运行距离不仅速率更慢，而且安全性也更低。跟着该范围向更长航程的自主遨游发展，这条弧线就成为了设想难题。

不同范围的风险情景各不相易。金融和办公任务的失败主要在于资源造访；日常生存和电子商务的失败主要在于信息流；软件工程的失败主要在于器具使用。这对坐褥团队的启示是，正确的安全端正法式取决于代理的用途。

扰动领会性广大较差。辗转教唆注入在统统测试设立中均导致性能下落幅度最大，领会性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子设想，在回击性输入下会失效。

为什么这件事当今很谬误

开云体育·(KAIYUN SPORTS)官方网站

多智能体 harness 一经不再只是一个磋磨问题。它正在成为异日十二个月内险些统统严肃 agent 产物的基础架构：

编码 agent 一经是多智能体系统，包括策画器、检索器、奉行器和审查器。

面向用户的助手也正在酿成多智能体系统，包括分诊、巨匠模块、升级处理和审计。

运维类 agent 险些自然需要多智能体，因为一朝你斗殴多个系统，本体上就在进行协同。

每一次顶住，都是信息可能流向不该去的场所的风险点。在单 agent 系统中，信任界限是 agent 的器具调用。而在多 agent 系统中，信任界限酿成了 message bus。是的，咱们正在构建 message bus，却莫得信得过把它手脚 message bus 来对待。

异日该如何办？

要惩处这个问题，要害不单是让模子更强，而是再行设想 harness 本人。

第一，agent 之间不行默许分享完整曲折文。每一次信息传递都应该有清亮界限：哪些内容不错传、传给谁、能保留多久。当今好多 harness 为了便捷，告成把完整曲折文交给下一个 agent，但这也恰是明锐信息浮现最常见的开始。

第二，安全评测不行只看最终谜底，而要回到完整奉行轨迹。一个 agent 即使给出了正确效果，也可能在历程中造访了不该造访的资源，调用了不该调用的器具，或把明锐信息传给了不该知说念的组件。因此，信得过的安全审计需要逐渐查验每一次器具调用、资源造访和 agent 间通讯。

第三，多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成现时任务所必需的信息，而不是默许秉承一皆曲折文。更理思的设想是2026世界杯在线买输赢平台，子 agent 先声明我方需要什么信息，再由 harness 或 message bus 判断是否允许传递。

上一篇：上一篇：世界杯(中国) 集团公司组织所属企业档案职责者参预专题培训

下一篇：下一篇：在线买世界杯平台培生: 云想象和AI被以为是妙技缺口最突出的规模

世界杯精彩瞬间

2026世界杯在线买输赢平台 从模子到Harness, AI Agent的下半场该如何评测安全?

2026世界杯在线买输赢平台从模子到Harness, AI Agent的下半场该如何评测安全?