阿里云计算团队如何让AI“边探索边利用”,告别训练失控的烦恼?
发布时间:2026-06-02 18:34 浏览量:1
这项由阿里巴巴云计算集团主导的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR第306卷。有兴趣深入研究的读者可通过论文编号arXiv:2605.28109查询完整论文。
一个让AI学会"刚好好奇"的问题
每当我们教一个孩子学数学,都会面临一个微妙的困境:如果孩子太谨慎,总是只用同一种方法解题,碰到稍微变形的题目就束手无策;但如果孩子太散漫,东想西想、思维天马行空,做题时反而抓不住关键,不知道该往哪个方向推进。这两种极端之间,存在一个最理想的状态,就是既保持足够的好奇心去探索不同解法,又能聪明地判断哪条路更有可能通向正确答案。
大型语言模型(也就是我们平时说的AI大模型,比如各种聊天机器人背后的"大脑")在通过强化学习自我提升的过程中,面临的正是同一个困境。训练过程中,AI需要不断尝试回答各种复杂问题,然后根据自己回答得对不对来调整思路。问题在于,如果训练方法不当,AI要么会"过度开发"某几种固定套路,变得千篇一律、死气沉沉;要么会"过度探索",每次回答都乱七八糟、毫无逻辑。这两种情况都会让训练走向失败。
阿里巴巴的研究团队为此提出了一套全新的解决方案,核心思路是借用信息论中一个叫做"信息瓶颈"的经典理论,为AI的训练过程设计了一把精准的"温度计",专门用来测量AI当前的探索与利用是否处于最佳平衡状态。围绕这把温度计,他们又打造了一套叫做IB-TPO(信息瓶颈驱动的树形策略优化)的训练框架,让AI在解题时能像一棵不断生长的思维树一样,每次优先向最有价值的方向延伸,而不是漫无目的地乱跑。实验结果显示,这套方法在多个标准数学推理测试上,比此前主流方法高出了2.9%到3.6%,超越了所有对比的同类方法。
一、AI训练中那个隐藏已久的"钟摆难题"
要理解这项研究解决的问题,得先弄清楚AI是怎么通过强化学习变聪明的。
通俗来讲,强化学习就像是在用打游戏的方式训练AI。AI每次面对一道题,就相当于玩一局游戏;答对了得分,答错了失分。AI通过无数局"游戏"积累经验,逐渐学会什么样的思路更容易成功。目前最流行的一种具体做法叫GRPO(组相对策略优化),它的策略是每次让AI对同一道题同时生成好几个不同的解答,然后比较这些解答的得分高低,用相对排名来指导AI往哪个方向调整。
这个方法听起来很合理,但实际操作中埋着一个不小的隐患。研究团队在实验中发现,使用GRPO训练的AI,在训练刚开始的时候表现还不错,但用不了多久就会陷入一种"僵化"状态——AI对同一道题生成的多个解答,虽然表面上用词略有不同,但背后的思路几乎一模一样,就像一个人习惯性地用同一种方法做所有数学题,换一个角度就完全不会了。这种现象在论文里被叫做"过度利用",也就是AI过早地把所有赌注都押在了它认为最靠谱的那一套路数上,不再去尝试其他可能性。
为了对抗这种僵化,研究者们尝试过一些常见的补救手段。一种是调整训练时的"剪裁阈值",让AI更愿意接受出人意料的答案;另一种是直接给AI加一个"熵正则化"的限制,强迫它保持一定程度的不确定性,也就是不允许AI对任何一个答案过于自信。然而实验结果令人意外——这两种方法虽然确实让AI变得更"飘忽"了,训练曲线上的不确定性指标确实上升了,但模型在真实题目上的表现反而没有提升,有时甚至更差。更糟的是,强行增加不确定性有时会引发另一个极端:AI开始胡言乱语,生成大量重复、无意义的词语,完全失去了正常推理的能力,也就是"过度探索"。
研究团队举了一个令人印象深刻的例子。当启用强度为0.003的熵正则化时,让AI解一道关于抛物线顶点坐标的数学题,AI在前几步推导得还算有条理,但到了后半段,突然开始输出"confirm simplest simplest core rational basic checks solving thus aligns properly minimal aligned smallest simplest rational..."这样不断重复的乱码,生成满满两千个词却一个有用的结论都没给出来,最终因超出长度限制而截断。这就是"过度探索"的典型症状——AI变得太不确定,以至于无法把任何一个思路推进到底。
这揭示了一个根本性的矛盾:既不能让AI太固执(过度利用),也不能让AI太散漫(过度探索)。但现有的所有方法,要么只管治一端,要么两端都顾不好。
二、信息瓶颈:一把同时量两件事的温度计
解决这个矛盾,需要一个全新的视角。阿里巴巴团队选择从信息论出发,借助一个叫"信息瓶颈理论"的经典框架来重新理解这个问题。
信息瓶颈理论最初不是为了训练AI而设计的,它是一个更普遍的理论,描述的是如何从一堆原始信息中提炼出最有用的部分。最简单的类比是泡咖啡:你把热水(信息)通过咖啡粉(瓶颈),得到的咖啡液(提炼后的信息)既过滤掉了大量无关的杂质,又保留了让咖啡风味得以呈现的关键物质。信息瓶颈理论认为,理想的信息提炼过程需要同时做到两件事:尽量扔掉与目标无关的冗余信息(对应"探索多样性"),同时尽量保留与目标高度相关的有效信息(对应"利用高价值路径")。
研究团队把这个理论映射到AI推理训练上。他们把AI解题的每一步思考过程看成一次信息提炼:这一步思维跟最终正确答案有多大关系?这一步的多样性够不够,能不能代表AI真的在考虑不同可能性?基于这两个维度,他们定义了一个全新的评分指标,命名为IB-Score(信息瓶颈分数)。
IB-Score背后的数学逻辑稍微复杂一点,但核心意思可以用一个淘金的比喻来理解。淘金的过程中,好的淘金者既需要筛入足够多的沙土(保持探索的多样性,不要只盯着某一块地方),又需要能准确识别哪些闪光的颗粒是真金而不是黄铁矿(识别哪些思路真的能通向正确答案)。IB-Score就是这样一个双重评分标准:它同时考察AI在当前这一步推理时的"多样性"(类似于筛入的沙土够不够多样)和"信息增益"(类似于这一步思路实际上让你多大程度上接近了正确答案)。
具体来说,IB-Score包含两个相互配合的量。第一个量衡量的是"当前步骤的模型自信度",也就是AI在这一步有多大概率会走这条路。第二个量衡量的是"如果已经知道正确答案,这条路被选中的概率会有多大",换句话说,是这条路与正确答案的相关性有多强。IB-Score的高低,本质上取决于这两个量的协同程度——如果AI把高自信度精准地分配给了那些真正有助于得出正确答案的路径,IB-Score就会高;反之,如果AI对所有路径的自信度差不多(过度探索),或者高自信度集中在了错误方向上(过度利用),IB-Score就会低。
这个设计有一个非常关键的特性:它不只是简单地测量AI的"不确定性高不高",而是要求AI的不确定性必须以有意义的方式分布。高熵(不确定性高)本身不是好事,只有当这种不确定性恰好集中在那些对解题有价值的分叉点上时,才真正有价值。这就解释了为什么单纯增加熵不能提升性能——你筛了很多沙,但如果你对哪些闪光是真金毫无判断力,筛得再多也是白费。
三、训练"病历报告":IB-Score照出了什么问题
有了IB-Score这把温度计,研究团队重新审视了现有训练方法的真实状态,结果发现了一些此前被忽视的关键规律。
他们用Qwen3-8B-base这个模型做了一系列详细的诊断实验,追踪训练过程中IB-Score随时间的变化趋势。实验结果呈现出一幅清晰的图景:在训练最开始的时候,模型本能地表现出一定的"智慧"——它的自信度分配是有倾向性的,更倾向于把高自信度给那些跟正确答案相关性高的路径,也就是IB-Score中两个核心量之间存在正向的协同关系。这说明模型在完全未经特殊训练时,其实有一种自然的"直觉",能初步区分好路径和坏路径。
然而,随着GRPO训练的推进,这种协同关系迅速崩溃。大约在训练初期就急剧恶化,两个量之间的关联性趋近于零,意味着模型对每条路径的自信度开始变得均匀,失去了原本的辨别能力。训练有效率(也就是在同一批次里,那些AI的不同尝试结果有差别、能提供真正学习信号的比例)也随之持续下滑。这就是一个典型的"越练越僵"的过程。
加了熵正则化的版本,确实让整体不确定性上去了,但IB-Score的走势却并没有因此改善,两个量的协同关系依然在下滑。这说明熵正则化治标不治本——它让AI看起来更"开放",但实际上并没有帮助AI学会把开放性用在刀刃上。
更值得关注的是,研究团队的分析揭示了一个深层规律:训练过程中IB-Score保持相对稳定的模型,最终在测试中往往能达到更好的性能,而且训练过程更平稳。这说明维持IB-Score的稳定,不是一个可有可无的锦上添花,而是指向训练成功的一个关键信号。
四、IBTree:像培育一棵有策略的思维树
意识到问题所在,研究团队设计了一套新的训练框架,核心组件是一种名为IBTree(信息瓶颈引导树搜索)的采样策略。
在此之前,GRPO的做法是每次让AI对一道题独立地生成多个完整解答,就像让多个学生各自从头到尾独立做一道题,然后比较谁做得好。这种方式有两个明显的浪费:首先,不同解答的开头往往差不多,只是到了某个关键分叉点才开始走不同的路,如果每次都从头生成,就白白重复了大量相同的推理过程;其次,这种"各自为战"的策略无法利用已有的推理结果来指导接下来生成什么,完全是盲目地撒网。
IBTree的设计思路完全不同,更像是精心规划的一棵决策树。每道题对应一棵树,树的根节点就是题目本身。训练开始时,先从根节点出发生成几条完整的解答路径,得到树的初始框架。然后,关键步骤来了:利用已有路径中每个推理步骤的IB-Score,找出当前整棵树中IB-Score最高的那个节点,也就是最值得进一步探索的思维分叉点,然后专门从这个节点出发再生成几条新路径。接着,更新所有节点的IB-Score,再次选出最值得探索的节点,继续扩展。如此反复迭代,直到生成足够数量的路径。
这个过程有一个自然的类比:当你在一个陌生城市开车找地方时,一个聪明的导航策略不是让你同时走所有可能的路,而是先大致探索几条主干道,然后在那些"感觉路况最复杂、最可能藏着捷径"的路口进行更细致的勘察,而不是对每个路口都一视同仁。IBTree就是这样的智能导航策略,它把有限的"探索预算"优先投入到最有价值的节点上。
这种设计带来了一个显著的效率提升:在相同的词元预算(可以理解为相同的计算成本)下,IBTree能生成比独立采样多50%的有效路径。具体来说,标准的独立采样每题生成8条完整解答,而IBTree能生成12条,但总消耗的词元数量是一样的。这是因为IBTree通过树形结构实现了路径前缀的共享——同一棵树上不同分支的公共前缀只需要计算一次。
IBTree还有一个额外的好处:树形结构天然地为IB-Score的计算提供了所需的信息。计算每个节点的IB-Score,需要知道从这个节点出发继续解题能有多大概率成功,而IBTree扩展过程中已经从每个节点生成了若干条路径,这些路径的成功率正好可以用来估算所需的概率,形成一个计算上的良性循环。
五、让IB-Score变成训练信号:局部优势与全局优势的协作
有了IBTree提供的丰富信息,研究团队进一步把IB-Score直接嵌入到训练目标中,让AI不只是被动地被测量,而是主动地被引导去提升自己的IB-Score。
原有的GRPO方法只使用了一种"全局优势"作为训练信号:某条完整解答路径答对了就是好的,答错了就是坏的,用这个来告诉AI哪些做法值得加强、哪些值得削弱。这种信号是粗粒度的——它只评价整体结果,无法告诉AI在哪一个具体推理步骤上走对了、哪一步走错了。
IB-TPO在此基础上增加了一种"局部优势",直接基于IB-Score来衡量每一步推理对整体推进的贡献。具体来说,从某个父节点分出来的不同子节点(也就是下一步推理的不同选择),可以通过比较它们各自后续解题成功率来判断哪个子节点更值得走。如果从某个子节点出发,后续成功率明显高于从父节点出发的平均成功率,那这个子节点就有正的局部优势,应该被鼓励;反之则应该被抑制。
这个局部优势与全局优势相结合,形成了一个层次分明的训练信号体系:全局优势告诉AI大方向有没有走对,局部优势则在此基础上精确指出具体哪个推理步骤功不可没、哪个步骤是弯路。两者配合,远比单独使用任何一个更有效。通过一系列消融实验(也就是系统地把各个组件逐一拆除,看缺了哪个部分性能下降最多的测试),研究团队验证了这个组合效果:单独使用IBTree有一定提升,单独使用IB-based局部优势也有一定提升,而两者结合才能达到最佳效果,而且IBTree不能被随机树或其他策略简单替代。
六、实验结果:数字背后的实际意义
研究团队在多个不同规模的模型和多个不同类型的测试集上验证了IB-TPO的效果。
训练所用的基础模型是阿里巴巴自研的Qwen3系列,分别使用了1.7亿参数规模的Qwen3-1.7B-base和80亿参数规模的Qwen3-8B-base。训练数据是一个包含约1.7万道具有挑战性数学题的数据集DAPO-Math-17K。评测则覆盖了多个标准测试集,包括MATH-500(一个包含500道竞赛级数学题的综合测试)、AIME 24/25(美国数学邀请赛题目)、AMC 23/24(美国数学竞赛题目)以及两个跨领域测试:考察科学推理能力的GPQA Diamond和考察指令遵循能力的IFeval。
在1.7B规模上,普通GRPO的整体得分为26.3%,而IB-TPO达到了29.2%,提升了2.9个百分点。在8B规模上,GRPO得分40.7%,IB-TPO达到44.3%,提升了3.6个百分点。这个提升不只体现在数学题上,在跨领域的科学推理和指令遵循上也有明显进步,说明IB-TPO学到的能力有一定的泛化性,不只是针对数学题的专项优化。
与其他同类方法相比,IB-TPO同样占据优势。在8B规模上,GRPO加上裁剪阈值调整是41.0%,加上熵正则化是41.4%,IBRO(另一个把信息瓶颈用于序列级正则化的方法)是41.6%,TreeRL(基于熵引导树搜索的方法)是42.0%,TreePO(限制树宽度的树搜索方法)是41.6%,而IB-TPO是44.3%,超过了所有对比方法。
研究团队还专门比较了通过pass@K(在K次尝试中至少答对一次的概率)来衡量的探索能力,这个指标能直接反映AI的搜索空间是否被充分保持。结果显示,IB-TPO在各个K值下都明显领先,说明它不只是在单次回答准确率上做得更好,而是真正保持了更丰富的探索能力。
在采样效率的详细对比中,研究团队测试了多种不同的树采样策略。随机分支策略的有效率只有48.4%,固定宽度树是59.4%,熵引导分支是57.8%,而IB-Score引导的IBTree在β=5时达到了60.2%,同时整体解题准确率也最高。这说明IBTree不只是在数量上胜出,在质量上也同样领先。
研究团队还测试了IB-TPO在更长上下文设置(4K和8K词元限制)下的表现,以及在更大参数规模(140亿参数的Qwen3-14B-base)和不同任务领域(代码生成任务、使用Llama 3.1-8B-Instruct模型)的表现,结果一致显示IB-TPO的优势能够稳定保持,不因模型大小、上下文长度或任务类型而消失。
七、细节经得起推敲:各项设计都有据可查
任何新方法都需要证明自己的设计选择不是随意为之,研究团队通过一系列严谨的消融实验回答了几个关键问题。
关于IB-Score中的权衡系数β,研究团队测试了三个值:1.0、5.0和10.0。β=5时采样有效率最高(60.2%)、整体准确率最高(23.2%),且词元消耗最少(7592个),是三者中最优的组合,而β=10时性能有所下滑,说明这个参数并非越大越好,存在一个最优区间。
关于局部优势权重λ,测试了0、0.05、0.1、0.5四个值。完全不使用局部优势(λ=0)时性能最差,λ=0.1时达到最优,λ=0.5时性能明显下滑。这说明局部优势是一个有用但需要适度使用的补充信号,而不是越强越好。
研究团队还专门测试了IB-TPO对步骤边界噪声的鲁棒性。他们使用双换行符来分隔思维步骤(这是一种简单、无需额外训练的自然分界方式),然后人工扰动10%的分界位置,把它们随机移动到不该有分界的地方,模拟边界划分不准确的情况。结果显示性能几乎没有变化,说明IB-TPO对步骤边界的定义不敏感,实用性较强。
在运行效率方面,研究团队也进行了透明的测量和讨论。由于IBTree需要多轮迭代式扩展,并行度比直接生成多条独立解答要低一些,单棵树的运行时间会稍长。但当并行处理多棵树(也就是同时处理多道题目)时,这个差距会随并行度提高而迅速缩小。团队还发现,通过让不同树的扩展过程异步进行,可以进一步减少等待时间,实现约15%的额外加速。在等效词元预算下,IBTree(生成12条路径)的运行时间只比独立采样(生成8条路径)多约31%,但多出了50%的路径数量,综合效率是正向的。
归根结底,这项研究做了一件听起来简单但实际上相当精妙的事情:它用一个同时衡量"多样性"和"方向感"的评分指标,取代了原来只看"多样性"本身的粗糙方法,并围绕这个评分指标构建了一套完整的采样与训练体系。结果是,AI不再在"太死板"和"太散漫"之间来回摇摆,而是找到了一条两者兼顾的稳定道路。
这个思路或许对所有需要在"保留可能性"和"聚焦最优解"之间做权衡的系统都有启示意义——无论是AI训练,还是现实中的决策过程。对希望深入了解技术细节的读者,论文原文可通过arXiv编号2605.28109获取。
Q&A
Q1:IB-Score和普通熵值有什么区别,为什么不直接用熵来衡量AI的探索状态?
A:普通熵只衡量AI对各条推理路径的自信度是否均匀,也就是"是不是够不确定"。但均匀的不确定性并不等于有效的探索,AI可以对每条路径同样迷茫,但对哪条路更接近正确答案毫无感知。IB-Score在熵的基础上引入了"信息增益"维度,要求AI的高自信度必须精准集中在那些真正有助于解题的路径上。实验也印证了这一点:强行增加熵不能提升性能,有时反而导致AI生成大量无意义重复词语,即"过度探索"。
Q2:IBTree采样比普通独立采样更复杂,实际训练速度会慢多少?
A:IBTree通过共享路径前缀,能在相同词元预算下多生成50%的路径(从8条增加到12条)。单棵树的单次运行时间确实略长,但当并行处理多棵树时差距会快速缩小。研究团队还发现,通过让不同树的扩展过程异步进行,可以减少约15%的等待时间。在等效词元预算下,IBTree总体运行时间仅比独立采样多约31%,但路径数量多了50%,综合来看效率是正向的。
Q3:IB-TPO只适用于数学推理任务,还是可以用在其他类型的AI任务上?
A:研究团队已在多个方向验证了IB-TPO的泛化能力。除数学推理外,他们还在代码生成任务(使用Llama 3.1-8B-Instruct模型,训练数据来自可验证的编程问题集)和指令遵循任务(IFeval测试集)上进行了测试,结果同样显示出明显优势。此外,在更大的140亿参数模型和4K、8K更长上下文设置下,IB-TPO的提升效果同样稳定保持,说明这套方法具备较强的通用性。