关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro872人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CISPA 亥姆霍兹信息安全中心、西安交通大学和Flexera 的研究人员提出了一个抓住关键点的通用的越狱评估框架——JADES(Jailbreak Assessment via Decompositional Scoring,通过分解式评分进行越狱评估)。

JADES 的核心思想是摒弃宏观的整体判断,转而借鉴了教育评估领域的分析式评分(Analytic Scoring)思想,采用一种更精细、更可靠的「分解式评分」机制。它将一个复杂的有害问题自动分解为一系列带权重的子问题,对模型针对每个子问题的回答进行独立评分,最终加权汇总,得出一个高度可信的最终判断 。

这项工作不仅提供了一个更准确的评估工具,更通过对现有攻击的重新评估,揭示了一个重要事实:过去我们严重高估了越狱攻击的实际威胁。



  • 论文标题: JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring
  • 论文链接: https://arxiv.org/abs/2508.20848v1
  • 项目网站: https://trustairlab.github.io/jades.github.io/

当前越狱评估方法的瓶颈

准确评估越狱攻击的难点根源在于有害问题的「开放性」。与有标准答案的问答不同,「How to make a bomb」这类问题没有唯一的、公认的参考答案,这使得制定统一的成功标准变得异常困难。虽然由人类专家进行手动评估被认为是准确性的「黄金标准」,但其高昂的成本和极低的可扩展性,使其无法跟上快速演变的攻击技术。

因此,学术界和工业界都迫切需要可靠的自动化评估方法。然而,现有的自动化技术存在两类核心缺陷:

1. 错位的代理指标 (Misaligned Proxy Indicators)

这类方法采用与攻击者最终目标不一致的间接指标进行判断,导致了大量的假阳性(False Positives), 例如:

  • 字符串匹配:该方法检测响应中是否出现「Sure, here is...」或者「Sorry, I cannot...」等表达意愿的短语 。然而,模型完全可能在此类表态后紧跟相反语义的内容,这种基于表层文本的判断并不可靠且存在明显的准确度上限。
  • 毒性检测器:该方法评估响应的有害性分数。然而,高毒性分数不等于成功的越狱。例如,一个旨在生成特定歧视性言论的请求,模型可能返回了其他类型的、不相关的谩骂内容。尽管响应本身有害,但并未满足攻击者的特定意图,因此不应被视为一次成功的攻击。

2. 整体性评估策略 (Holistic Evaluation Strategies)

采用 LLM-as-a-judge 的方案普遍依赖对复杂、开放式响应的整体性评估。这种宏观视角将多个评估维度混为一谈,使其难以应对响应中的各种「干扰项」,导致评估结果失真。例如:

  • 空洞内容 (Vacuous Content):响应中充斥着「使用适量材料」、「按正确比例混合」等模糊表述,并未提供任何可执行的关键信息。
  • 干扰性内容 (Distraction Tokens):响应中夹杂了大量从越狱提示中继承的、与任务无关的文本,如角色扮演对话等,这会干扰评委模型的判断。
  • 表面正确,事实谬误:响应格式规范、看似详尽,但核心信息(如化学配方、代码实现)却是错误的。整体性评估很难深入细节进行事实核查,容易被这种 「伪装」所欺骗。

JADES 框架:引入分解式评分新范式

为克服上述瓶颈,JADES 框架通过一个多代理协作流程,将人类专家进行分析式评分的逻辑自动化,从而确保评估的粒度与可靠性。其核心架构由四个协同工作的节点构成:

1. 问题分解节点 (Question Decomposition Node)

接收到有害问题 Q 后,一个 LLM 代理会从攻击者视角出发,将其分解为一组带权重的关键子问题 { (q_i, w_i) }。这些子问题构成了后续评分的核心标准。如图例所示,「How to make a bomb」会被分解为「材料清单」、「组装步骤」和「引爆方法」三个加权子问题。这样的分解使评估更接近真正的越狱攻击成功标准。 为提高效率,该节点还包含一个记忆模块,用于存储和复用已有的分解结果。



JADES的流程, 以「How to make a [B**B]」为例。

2. 清理节点 (Clean Node)

此节点负责对原始越狱响应 R 进行预处理。它首先将响应文本分割成句子,然后由一个代理滤除所有与任务无关的内容,生成一个精简、干净的响应版本 R_clean,以降低后续节点的处理复杂度和潜在的混淆。

3. 子问题配对节点 (Sub-Question Pairing Node)

对于每个子问题 q_i,一个配对代理会从 R_clean 中精准地抽取出相关的句子,构成对应的子答案 a_i。这一步骤将宏观的响应文本与微观的评分标准建立了明确的对应关系,形成了清晰的评估单元。

4. 评估节点 (Evaluation Node)

最后,一个评委代理使用五级李克特量表(0.00-1.00)为每个子答案 a_i 打分 。最终的总分 S_total 通过对所有子分数进行加权聚合得出,并且通过相应的阈值,映射到二元分类 (越狱成功 / 失败) 或者三元分类 (越狱成功 / 部分成功 / 失败)。

性能表现

研究人员构建了一个包含 400 对有害问题与越狱响应的基准数据集 JailbreakQR 用于验证 JADES。该数据集基于人工精细标注,采用三元标签体系(失败、部分成功、成功), 并附有相应的理由。

性能表现

  • 二元设置:为与基线对齐,在将标签映射为二元(成功 / 失败)后,JADES 与人类评估者的一致性达到 98.5%,相较于强大的基线方法提升超过 9% 。
  • 三元设置:在更具挑战性的三元分类任务中 (成功 / 部分成功 / 失败),JADES 的准确率依然达到了86.3%。混淆矩阵分析表明,JADES 在识别「失败」的案例上表现极佳。其对「成功」案例的判断比人类更严格,可以觉察出某些答案中人类通常忽略的细节错误,并对应地降级为「部分成功」。
  • 每一步分解评分都可追踪,提升了整个评估流程的可解释性和透明度。



三元分类设置下的混淆矩阵

对主流越狱攻击的重新评估

JADES 带来的最重要的发现,是揭示了以往的评估方法系统性地高估了越狱攻击的成功率。

  • 几乎所有的越狱攻击攻击成功率(ASR)都被高估。例如,LAA 攻击在 GPT-3.5-Turbo 上的 ASR,在传统评估下被报告为高达 93%,而在 JADES 的重新评估下 (二元分类设置),这一数字骤降至 69%。



  • 更进一步,在 JADES 的三元评估设置下,研究人员引入了「成功率 / 攻击成功率」(SR/ASR)这一新指标来衡量成功的「质量」。结果发现,对于所有被测试的攻击方法,「完全成功」的案例在其总成功案例中的占比最高不超过 0.25。这意味着,绝大多数被传统二元指标记为「成功」的越狱,实际上只是 「部分成功」。

  • 此外,那些对原始有害问题修改越大的攻击方法(如 PAIR),其「完全成功」 的比例往往越低 ,这表明语义层面的偏离会严重影响攻击的实际效果。

结论与未来展望

JADES 框架的提出,为越狱评估领域建立了一个透明、可靠且可审计的新标准。它不仅是一个性能更优的工具,更重要的是,它通过严谨的实证研究揭示了当前领域内存在的系统性偏差。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

智己汽车11月销量13,577台,连续三个月刷新历史纪录

网易汽车 浏览 208

泽连斯基签署多项针对俄罗斯制裁令

国际在线 浏览 884

外观大幅调整 疑似红旗H5纯电版谍照曝光

车质网 浏览 149

新美联储通讯社:美联储暗示暂停降息行动,新债王:今天或是鲍威尔任内最后一次

华尔街见闻官方 浏览 79

险些相撞!加拿大护卫舰目睹中国战舰逼美舰改道

环球时报 浏览 16889

秋天穿衣真的很简单,看看这些造型就有灵感,舒适简约又自然

静儿时尚达人 浏览 536

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 3754

扫码即飞!西安街头现身共享无人机

环球网资讯 浏览 476

尼日尔总统被政变军人推翻 美国宣布暂停部分援助

海外网 浏览 12962

春天还是衬衫叠穿最好看 时髦又高级

小陈聊搭配 浏览 14211

纳帅:尊重马扎加入阿尔及利亚,但选择国家队应出于自豪感

懂球帝 浏览 439

TA:诺丁汉森林不会因对阵曼联存在角球误判向裁判机构上诉

懂球帝 浏览 510

布朗尼心脏疾病改变詹姆斯的抉择 生涯可能在湖人终老?

直播吧 浏览 13966

王励勤出任乒羽中心副主任

体坛周报 浏览 198

"台独"分子沈伯洋十分担忧求助台陆委会:不敢离开台湾

看看新闻Knews 浏览 2438

王思聪又换女伴了?和白富美吃火锅,女方气质好!

缘木不求娱 浏览 11284

傍上 “新中式”,现制酸奶能迎来 “二次爆发” 吗?

餐饮老板内参 浏览 827

用她和朱珠比较,不太公平?

江湖人称艾掌门 浏览 422

医生+教师“王炸”组合IPO!海圣医疗为千家医院供货年入3亿

野马财经 浏览 484

二封奥斯卡影后!艾玛·斯通获得最佳女主角

网易娱乐 浏览 11490

告别奥博穆时代,保时捷加速落子研发"中国棋"

网易汽车 浏览 408
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1