2026世界杯在线买输赢平台 从模子到Harness, AI Agent的下半场该如何评测安全?

对于 AI 安全的大部分贪图,恒久以来都贴近在模子本人。模子是否对皆?是否容易被 jailbreak?是否会断绝危境苦求?这些问题自然谬误,但在今天,它们一经不是唯独、以至不再是最中枢的问题。
信得过被部署的 agent,并不是裸模子。岂论是 Claude Code 自动提交 PR,Codex 设立 issue,照旧八成告成操作资金的客服助手,它们都运行在一个 execution harness 之中。Harness 决定了模子能调用哪些器具、能造访哪些资源、信息如安在不同子 agent 之间流动、何时拆伙奉行,以及系统如何处理特殊收复。模子只是提议动作,信得过决定行为界限的是 harness。
这意味着,好多信得过危境的失败,一经不再发生在“最终回应”这一层,而是发生在奉行历程本人。一个看似“对皆淡雅”的模子,淌若被放进权限界限松散的 harness 中,依然可能偷偷奉行越权操作。而只评测最终谜底的 benchmark,经常会把这种系统判定为“得胜完成任务”。
近期,Claw-Eval 和 ClawsBench 等责任一经启动将 agent 评测从静态问答鼓吹到确实奉行环境,温雅系统是否八成策画、调用器具、造访资源并完成用户见识。但中枢缺口依然存在:这些评测大多仍以任务完成度为中心,八成告诉咱们任务是否完成,却很难判断任务是否被安全地完成。
一些近期基于 Claw 类设立的安全审计启动温雅器具使用或最终输出安全性,但完整奉行轨迹和系统级 harness 安全仍然短少清亮界说。一个 harness 可能复返正确效果,却在历程中造访受限资源、调用未授权器具、在 agent 之间浮现明锐曲折文,或触发超出用户意图的反作用。
在多 agent 系统中,这一问题愈加要害。扮装单干、任务顶住、分享曲折文和 agent 间通讯都会扩大安全知道面。换句话说,咱们一直在对 AI 系统中“最容易看到的一层”进行安全校准,却忽略了信得过决定 agent 行为界限的奉行系统。
近日,加州大学圣塔芭芭拉分校(UCSB)等机构的一项新责任提议了 HarnessAudit,恰是但愿惩处这个问题。

论文标题:Auditing Agent Harness Safety
网站:harvestaudit.github.io
论文:arxiv.org/abs/2605.14271
代码和数据集:github.com/eric-ai-lab/HarnessAudit

HarnessAudit 概览。(a) HarnessAudit 隐蔽八个确实寰宇范围,用于构建带有现实按捺的安全评测任务。(b) Agent 在完成任务时,需要履历策画、检索、器具调用、审查和通讯等圭臬,并与外部资源和动态环境交互。(c) 展示了在 OpenClaw 设立下,基于完整奉行轨迹审计得到的模子阐扬,评测维度包括界限合规性、奉行诚实性和系统治路性。
HarnessAudit 是一个针对完整奉行轨迹(trajectory)进行审计的安全评测框架,而不单是温雅最终输出。
同期,该团队还构建了 HarnessAudit-Bench,在 8 个确实寰宇范围上的 210 个任务中,对 agent harness 的行为进行系统化审计。这些范围包括金融、电商、医疗、办公勾搭、应对互动、日常生存、法律合规以及软件工程。
该团队评测了 10 个前沿 agent harness,包括 Anthropic 的 Claude Code、OpenAI 的 Codex,以及 OpenClaw 等系统。
他们的中枢不雅点很浅薄:Agent 的风险,不在最终谜底,而在它为特出到这个谜底,2026世界杯买球赛的正规app究竟作念了什么。

审计查验什么
HarnessAudit 会在每一条奉行轨迹上结合评估三个属性。
界限合规性。每一次器具调用、资源造访和 agent 间通讯,都必须稳妥事先声明的权限计谋和信息流计谋。
奉行诚实性。Agent 不仅要完成见识,还必须通过合理且被授权的中间圭臬完成任务,不行私行替换对象、操作超出范围的资源,或奉行比用户授权范围更大的动作。
扰动下的领会性。上述两类安全属性还必须能领受确实压力场景,举例辗转教唆注入、见识形状朦胧、器具调用特殊等。
唯有同期通过这三项查验,一条轨迹才会被视为安全。该团队暗示:「最终谜底是否正确会被单独证明,这是出奇设想的,因为咱们思不雅察“任务完成”和“安全奉行”的不一致到底有多频繁。」
效果是,很频繁,它们平常不一致。

中枢效果表确认了三件事。
第一,得分最高的系统,并不一定是任务完成才智最强的系统。
在 OpenClaw 设立下,Claude Opus 4.6 的任务完成率高于 Gemini 3.1 Pro,但总体安全得分反而更低,因为它在奉行历程中高出了更多安全界限。才智与安全并不是合并条轴,而现时系统施行上正在用一种交换另一种,只是畴昔很少有东说念主信得畴昔揣测这种 trade-off。
第二,三类界限合规性并不是相通选藏。
器具遴荐本人平常问题不大,世界杯(中国)大大批 harness 都能选对器具。信得过的失败更多发生在器具遴荐之后,而且贴近在两个更具体的阶段,后头会进一步贪图。
第三,原生 harness 的设想既可能提高安全,也可能放大风险。
在相易 Claude 模子下,Claude Code 比较 OpenClaw 同期提高了任务完成率和安全性。而 Codex 诚然提高了完成率,却缩短了安全性,因为 GPT-5.4 在原生环境下会奉行更多动作,更长的奉行轨迹也因此累积了更多违游记为。
Harness 的设想,本体上决定了 agent 八成被“安一皆署”的上限,而不同厂商在这些设想上的互异其实异常大。

违纪贴近在那边
第一个贴近点是资源造访。
系统调用了正确的器具,但操作了特殊的对象,举例造访了 agent 权限范围外的文献、查询了用户见识傍边但未被授权的记载,或对计谋辞让的资源发起 API 调用。也即是说,器具遴荐是对的,但对象绑定是错的。在大大批设立中,资源造访合规性昭彰低于器具使用合规性。
第二个贴近点是 agent 间的信息流。
在多 agent harness 中,音问路由平常是对的,即音问会发给正确的 agent。但问题在于音问里捎带了什么。子 agent 经常会收到杰出其任务所需的曲折文;中间组件会在职务竣事后络续保留明锐信息;一个从 agent 传给另一个 agent 的选录,也可能偷偷浮现其背后的原始数据。
单 agent 与多 agent 的对比让这小数愈加具体。

在单 agent 设立中,器具合规性和资源合规性都高于 0.85。但一朝切换到多 agent 设立,器具合规性下落到 0.64,资源合规性下落到 0.63,而信息流合规性初次成为可见问题,仅为 0.58。 这确认,勾搭本人会扩大安全知道面,而这种风险是单 agent benchmark 很丢丑到的。

还有几个值得温雅的气候。
故障是广大存在的,并非局部性的。在测试的统统安全框架中,每个任务杰出 50% 的代理都至少存在一项安全违纪,而在 OpenClaw 中,这一比例高达 72%。故障模式是系统性的。你不行只是加固一个组件就能完整。
违游记为会跟着轨迹长度的增多而累积。更长的运行距离不仅速率更慢,而且安全性也更低。跟着该范围向更长航程的自主遨游发展,这条弧线就成为了设想难题。

不同范围的风险情景各不相易。金融和办公任务的失败主要在于资源造访;日常生存和电子商务的失败主要在于信息流;软件工程的失败主要在于器具使用。这对坐褥团队的启示是,正确的安全端正法式取决于代理的用途。
扰动领会性广大较差。辗转教唆注入在统统测试设立中均导致性能下落幅度最大,领会性得分在 0.15 至 0.22 之间。在干净任务中看起来尚可接受的模子设想,在回击性输入下会失效。

为什么这件事当今很谬误
开云体育·(KAIYUN SPORTS)官方网站多智能体 harness 一经不再只是一个磋磨问题。它正在成为异日十二个月内险些统统严肃 agent 产物的基础架构:
编码 agent 一经是多智能体系统,包括策画器、检索器、奉行器和审查器。
面向用户的助手也正在酿成多智能体系统,包括分诊、巨匠模块、升级处理和审计。
运维类 agent 险些自然需要多智能体,因为一朝你斗殴多个系统,本体上就在进行协同。
每一次顶住,都是信息可能流向不该去的场所的风险点。在单 agent 系统中,信任界限是 agent 的器具调用。而在多 agent 系统中,信任界限酿成了 message bus。是的,咱们正在构建 message bus,却莫得信得过把它手脚 message bus 来对待。
异日该如何办?
要惩处这个问题,要害不单是让模子更强,而是再行设想 harness 本人。
第一,agent 之间不行默许分享完整曲折文。每一次信息传递都应该有清亮界限:哪些内容不错传、传给谁、能保留多久。当今好多 harness 为了便捷,告成把完整曲折文交给下一个 agent,但这也恰是明锐信息浮现最常见的开始。
第二,安全评测不行只看最终谜底,而要回到完整奉行轨迹。一个 agent 即使给出了正确效果,也可能在历程中造访了不该造访的资源,调用了不该调用的器具,或把明锐信息传给了不该知说念的组件。因此,信得过的安全审计需要逐渐查验每一次器具调用、资源造访和 agent 间通讯。
第三,多 agent 系统需要明确的 need-to-know 机制。每个子 agent 只应该获取完成现时任务所必需的信息,而不是默许秉承一皆曲折文。更理思的设想是2026世界杯在线买输赢平台,子 agent 先声明我方需要什么信息,再由 harness 或 message bus 判断是否允许传递。