关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者1424人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每一步的逻辑是否成立。当AI走错一步时,"老师"会立即反馈"不对,这里有问题",然后AI就有机会纠正自己。与之前那些只在事后检查答案正确性的方法不同,这个新框架是动态的、实时的、主动的。

为了实现这个想法,研究团队开发了一个两阶段的训练系统。第一阶段是"监督学习",这个阶段有点像为学生编写教科书。他们采用了一个聪明的数据合成流程:首先让强大的教师模型生成多个推理链,然后对这些推理进行分解,将自然语言的推理转换成可以被计算机验证的形式化逻辑——这里面用到了Z3求解器这样的工具。但这里有个关键的细节:他们不是简单地相信这个转换,而是实际执行这些形式化的推理代码,看它是否真的产生了正确的结果。如果不匹配,他们甚至会要求AI重新生成自然语言解释,确保自然语言、形式化逻辑和实际执行结果三者完全一致。这就像在烹饪时,不仅要确保食谱写得对,还要真的尝一下味道,如果不对就调整食谱。

第二阶段是"强化学习",这是对第一阶段学到的知识进行打磨和优化的过程。研究团队使用了一种称为组相对策略优化(GRPO)的技术,并设计了一个多层次的奖励系统。这个奖励系统很聪明,它不只看最终答案对不对,还会检查推理过程的质量。它会惩罚那些生成错误代码、产生逻辑矛盾或推理过程混乱的情况。更有趣的是,这个系统采用了一个严格的优先级制度:首先排除那些完全破坏的输出(比如无限循环或超时),然后处理格式不规范的输出,最后才评估逻辑正确性。这就像一个主管在批改员工的报告,首先检查报告是否按照基本要求完成,然后才评估内容质量。

研究的评估阶段涵盖了三大类推理任务:逻辑推理、数学推理和一般推理。对于逻辑推理,他们使用了KOR-Bench和Big-Bench Hard(BBH)两个测试集。数学推理包括MATH-500(普通竞赛数学题)和AIME 2024(奥林匹克级别的难题)。一般推理则包括GPQA-Diamond(研究生级别的多学科问题)和TheoremQA(需要应用形式化定理的问题)。

结果令人印象深刻。研究团队训练了7B和14B参数规模的模型(这是中等大小的语言模型)。与之前最先进的方法相比,他们的7B模型平均提升了10.4%,14B模型平均提升了14.2%。在某些特定任务上,提升幅度更是惊人——在AIME 2024上,14B模型从之前的3.6%提升到了30.2%,几乎提高了十倍。在MATH-500上,他们达到了81.4%的准确率,远超所有对比方法。

有个特别有趣的观察值得注意。当研究人员分析模型在解决问题时调用了哪些Python库时,他们发现了一个重要的思维模式转变。相比于SimpleTIR这样的工具集成方法(主要依赖计算工具),新方法显著增加了对符号逻辑库的使用——从42.5%增加到62.5%。这意味着什么呢?这意味着模型不再只是在用工具进行数值计算,而是真的在进行抽象推理和逻辑演绎。这个转变深刻反映了AI推理能力的根本性提升——从"善于计算"升级到了"善于推理"。

研究团队还进行了深入的消融实验,即逐个移除方法中的组件来测试每个部分的重要性。结果显示,仅仅是SFT阶段(第一阶段的监督学习)就已经能带来显著的改进——从基础模型的30%提升到48%。然后RL阶段(第二阶段的强化学习)再把它推到51%。这清楚地表明,形式化验证本身就是推理改进的关键驱动力,而不仅仅是锦上添花。

但故事还没完。研究团队在迭代过程中发现了一个有趣的权衡问题。他们最初的设计要求模型在每一步都必须生成形式化的验证输出。但这样做导致了一个奇怪的现象:在数学问题上,模型有时会为了满足验证要求而使用复杂的Z3求解器来做简单的算术,反而搞糊涂了。比如,对于"最小的完全立方数是多少"这样的问题,模型会写出复杂的约束求解代码,而不是直接枚举。他们的解决方案是采用"灵活验证"策略:允许模型在需要时进行直接计算,而只在涉及逻辑推理的地方使用形式化验证。这个改进使得数学性能大幅提升,同时保持了逻辑推理能力。

整个研究中还有一个令人欣赏的细节:数据效率。虽然方法涉及复杂的训练流程,但研究团队使用的训练数据相对很少——总共只有大约17000个样本。而许多其他方法需要数倍的数据才能达到相同的性能。这表明形式化验证信号的质量非常高——每个带有验证反馈的训练样本都提供了更丰富的学习信号。

研究团队也坦诚地讨论了方法的局限性。首先,集成形式化验证确实增加了计算成本——训练时间大约是标准方法的两倍。不过他们认为这个代价是值得的,因为数据效率的提升足以弥补这个成本。其次,将自然语言转换为形式化规范本身是个挑战,特别是对于那些描述模糊或涉及常识推理的问题。在结构化领域如数学和逻辑,转换成功率很高,但对于开放式问题可能会出现映射错误。

这项研究的意义超越了纯粹的学术价值。它解决了AI推理中一个根本性的问题:神经网络(自然语言模型)和符号系统(形式化验证)之间的"最后一公里"。长期以来,研究者一直在试图找到一个优雅的方式,让这两个世界的优势结合——神经网络擅长处理现实世界的模糊和复杂性,而符号系统擅长严谨和可验证的推理。这项工作提供了一个实用的、可扩展的解决方案。

从更广泛的角度看,这项研究指向了AI安全和可靠性的一个重要方向。如果我们想让AI系统在医疗诊断、金融决策或法律咨询等高风险领域中应用,我们需要不仅要求系统给出正确的答案,更要求系统的推理过程是逻辑上可验证的。这项研究表明这不仅是可能的,而且能够显著提升性能。

最后值得一提的是研究团队的实用主义精神。他们不仅开发了方法,还提供了详细的实现细节,包括具体的超参数、数据构建流程、甚至代码提示词。他们甚至承诺会开源数据和模型。这种开放态度使得其他研究者能够复现成果、改进方法,进一步推动这个领域的发展。

**Q&A**

**Q1:形式化验证在这项研究中具体是如何改进AI推理的?**

A:研究团队让AI在生成推理链的每一步都使用Z3求解器等工具进行实时验证。当某一步的逻辑错误时,验证系统会立即返回反馈,允许AI进行自我纠正。这与传统的只在事后检查最终答案的方法不同,它能够主动阻止错误在推理链中传播,使推理过程更严谨。

**Q2:这个方法为什么能在有限数据下实现这么大的性能提升?**

A:形式化验证提供了极其高质量的学习信号。每个包含验证反馈的训练样本不仅告诉模型答案是否正确,还提供了具体的逻辑反馈。这种密集的监督信号使得模型用更少的数据就能学到更深层的推理规律,实现了数据效率的大幅提升。

**Q3:为什么模型在数学问题上用复杂求解器反而会出错,最后采用了灵活验证策略?**

A:强制使用形式化验证会导致模型在简单计算上过度复杂化。比如在计算简单算术时,模型会构建复杂的约束求解程序而不是直接计算,反而增加了出错机会。灵活验证允许模型在计算阶段直接算,只在需要逻辑推理的地方使用形式化验证,这样就平衡了计算效率和逻辑严谨性。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方下场,内娱要出大事儿了

独立鱼 浏览 2351

美国:对35个伊朗相关实体及个人实施制裁

央视新闻客户端 浏览 1238

李婉华:但凡他跟我求婚,我都不会另嫁他人

艳儿说电影 浏览 2593

日本渣男骗前女友拍全裸写真出轨

孤独的独角兽影视 浏览 1661

女子被逼嫁给大15岁男子喝农药轻生 钱被母亲拿走买房

大风新闻 浏览 5816

一句话点评10月紧凑型SUV:燃油车不仅没有死,居然还愈战越勇了

汽车公社 浏览 2071

李连杰“一夜回春”澄清1个月,小动作不断,一切都完全藏不住了

肆季娱乐 浏览 1444

脱口秀演员杨笠清空社交账号 她到底经历了什么?

代军哥哥谈娱乐 浏览 2254

全尺寸货运版eVTOL样机已总装下线,「蓝霄航空」完成新一轮数千万元融资,年内累计融资近亿元|36氪首发

36氪 浏览 2602

涉嫌支持台军心战大队 5家企业主营业务被曝光

日月谭天 浏览 10289

俄外交部否认俄韩秘谈朝核问题

新华社 浏览 1866

健康第一,卢:伦纳德目前身体状况正佳,希望他能保持住

懂球帝 浏览 2549

深夜,白银迭创新高!黄金也突破近6周高点

财联社 浏览 1960

涉及巨额采购协议 印度纠结引进何种隐形战斗机

环球网资讯 浏览 2047

荣梓杉出轨约妹照曝光!与李禹熹控诉时间吻合,还曾要求对方删照

萌神木木 浏览 2515

叶总逼走李匆匆,才知肖格格攀上吴总的真相

阿腩讲娱乐 浏览 1787

与宾利添越是"亲兄弟" 大众途锐3.0TSI锐臻版上市

隔壁说车老王 浏览 1517

2026年开年看什么?这些新剧已经帮你挑好了

桃桃淘电影 浏览 1844

胡歌现身为电影宣传,现场人山人海全场欢呼,胡歌照顾后辈好暖心

扒虾侃娱 浏览 2183

夫妻争吵男子抱起一个孩子扔河里 夫妻俩随即跳河救娃

上观新闻 浏览 4139

江俊晋级斯诺克苏格兰公开赛八强

体坛周报 浏览 1915
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1