阿里云计算团队如何让AI“边探索边利用”，告别训练失控的烦恼？

发布时间：2026-06-02 18:34 浏览量：21

这项由阿里巴巴云计算集团主导的研究，发表于2026年第43届国际机器学习大会（ICML 2026），会议地点为韩国首尔，收录于PMLR第306卷。有兴趣深入研究的读者可通过论文编号arXiv:2605.28109查询完整论文。

一个让AI学会"刚好好奇"的问题

每当我们教一个孩子学数学，都会面临一个微妙的困境：如果孩子太谨慎，总是只用同一种方法解题，碰到稍微变形的题目就束手无策；但如果孩子太散漫，东想西想、思维天马行空，做题时反而抓不住关键，不知道该往哪个方向推进。这两种极端之间，存在一个最理想的状态，就是既保持足够的好奇心去探索不同解法，又能聪明地判断哪条路更有可能通向正确答案。

大型语言模型（也就是我们平时说的AI大模型，比如各种聊天机器人背后的"大脑"）在通过强化学习自我提升的过程中，面临的正是同一个困境。训练过程中，AI需要不断尝试回答各种复杂问题，然后根据自己回答得对不对来调整思路。问题在于，如果训练方法不当，AI要么会"过度开发"某几种固定套路，变得千篇一律、死气沉沉；要么会"过度探索"，每次回答都乱七八糟、毫无逻辑。这两种情况都会让训练走向失败。

阿里巴巴的研究团队为此提出了一套全新的解决方案，核心思路是借用信息论中一个叫做"信息瓶颈"的经典理论，为AI的训练过程设计了一把精准的"温度计"，专门用来测量AI当前的探索与利用是否处于最佳平衡状态。围绕这把温度计，他们又打造了一套叫做IB-TPO（信息瓶颈驱动的树形策略优化）的训练框架，让AI在解题时能像一棵不断生长的思维树一样，每次优先向最有价值的方向延伸，而不是漫无目的地乱跑。实验结果显示，这套方法在多个标准数学推理测试上，比此前主流方法高出了2.9%到3.6%，超越了所有对比的同类方法。

一、AI训练中那个隐藏已久的"钟摆难题"

要理解这项研究解决的问题，得先弄清楚AI是怎么通过强化学习变聪明的。

通俗来讲，强化学习就像是在用打游戏的方式训练AI。AI每次面对一道题，就相当于玩一局游戏；答对了得分，答错了失分。AI通过无数局"游戏"积累经验，逐渐学会什么样的思路更容易成功。目前最流行的一种具体做法叫GRPO（组相对策略优化），它的策略是每次让AI对同一道题同时生成好几个不同的解答，然后比较这些解答的得分高低，用相对排名来指导AI往哪个方向调整。

这个方法听起来很合理，但实际操作中埋着一个不小的隐患。研究团队在实验中发现，使用GRPO训练的AI，在训练刚开始的时候表现还不错，但用不了多久就会陷入一种"僵化"状态——AI对同一道题生成的多个解答，虽然表面上用词略有不同，但背后的思路几乎一模一样，就像一个人习惯性地用同一种方法做所有数学题，换一个角度就完全不会了。这种现象在论文里被叫做"过度利用"，也就是AI过早地把所有赌注都押在了它认为最靠谱的那一套路数上，不再去尝试其他可能性。

为了对抗这种僵化，研究者们尝试过一些常见的补救手段。一种是调整训练时的"剪裁阈值"，让AI更愿意接受出人意料的答案；另一种是直接给AI加一个"熵正则化"的限制，强迫它保持一定程度的不确定性，也就是不允许AI对任何一个答案过于自信。然而实验结果令人意外——这两种方法虽然确实让AI变得更"飘忽"了，训练曲线上的不确定性指标确实上升了，但模型在真实题目上的表现反而没有提升，有时甚至更差。更糟的是，强行增加不确定性有时会引发另一个极端：AI开始胡言乱语，生成大量重复、无意义的词语，完全失去了正常推理的能力，也就是"过度探索"。

研究团队举了一个令人印象深刻的例子。当启用强度为0.003的熵正则化时，让AI解一道关于抛物线顶点坐标的数学题，AI在前几步推导得还算有条理，但到了后半段，突然开始输出"confirm simplest simplest core rational basic checks solving thus aligns properly minimal aligned smallest simplest rational..."这样不断重复的乱码，生成满满两千个词却一个有用的结论都没给出来，最终因超出长度限制而截断。这就是"过度探索"的典型症状——AI变得太不确定，以至于无法把任何一个思路推进到底。

这揭示了一个根本性的矛盾：既不能让AI太固执（过度利用），也不能让AI太散漫（过度探索）。但现有的所有方法，要么只管治一端，要么两端都顾不好。

二、信息瓶颈：一把同时量两件事的温度计

解决这个矛盾，需要一个全新的视角。阿里巴巴团队选择从信息论出发，借助一个叫"信息瓶颈理论"的经典框架来重新理解这个问题。

信息瓶颈理论最初不是为了训练AI而设计的，它是一个更普遍的理论，描述的是如何从一堆原始信息中提炼出最有用的部分。最简单的类比是泡咖啡：你把热水（信息）通过咖啡粉（瓶颈），得到的咖啡液（提炼后的信息）既过滤掉了大量无关的杂质，又保留了让咖啡风味得以呈现的关键物质。信息瓶颈理论认为，理想的信息提炼过程需要同时做到两件事：尽量扔掉与目标无关的冗余信息（对应"探索多样性"），同时尽量保留与目标高度相关的有效信息（对应"利用高价值路径"）。

研究团队把这个理论映射到AI推理训练上。他们把AI解题的每一步思考过程看成一次信息提炼：这一步思维跟最终正确答案有多大关系？这一步的多样性够不够，能不能代表AI真的在考虑不同可能性？基于这两个维度，他们定义了一个全新的评分指标，命名为IB-Score（信息瓶颈分数）。

IB-Score背后的数学逻辑稍微复杂一点，但核心意思可以用一个淘金的比喻来理解。淘金的过程中，好的淘金者既需要筛入足够多的沙土（保持探索的多样性，不要只盯着某一块地方），又需要能准确识别哪些闪光的颗粒是真金而不是黄铁矿（识别哪些思路真的能通向正确答案）。IB-Score就是这样一个双重评分标准：它同时考察AI在当前这一步推理时的"多样性"（类似于筛入的沙土够不够多样）和"信息增益"（类似于这一步思路实际上让你多大程度上接近了正确答案）。

具体来说，IB-Score包含两个相互配合的量。第一个量衡量的是"当前步骤的模型自信度"，也就是AI在这一步有多大概率会走这条路。第二个量衡量的是"如果已经知道正确答案，这条路被选中的概率会有多大"，换句话说，是这条路与正确答案的相关性有多强。IB-Score的高低，本质上取决于这两个量的协同程度——如果AI把高自信度精准地分配给了那些真正有助于得出正确答案的路径，IB-Score就会高；反之，如果AI对所有路径的自信度差不多（过度探索），或者高自信度集中在了错误方向上（过度利用），IB-Score就会低。

这个设计有一个非常关键的特性：它不只是简单地测量AI的"不确定性高不高"，而是要求AI的不确定性必须以有意义的方式分布。高熵（不确定性高）本身不是好事，只有当这种不确定性恰好集中在那些对解题有价值的分叉点上时，才真正有价值。这就解释了为什么单纯增加熵不能提升性能——你筛了很多沙，但如果你对哪些闪光是真金毫无判断力，筛得再多也是白费。

三、训练"病历报告"：IB-Score照出了什么问题

有了IB-Score这把温度计，研究团队重新审视了现有训练方法的真实状态，结果发现了一些此前被忽视的关键规律。

他们用Qwen3-8B-base这个模型做了一系列详细的诊断实验，追踪训练过程中IB-Score随时间的变化趋势。实验结果呈现出一幅清晰的图景：在训练最开始的时候，模型本能地表现出一定的"智慧"——它的自信度分配是有倾向性的，更倾向于把高自信度给那些跟正确答案相关性高的路径，也就是IB-Score中两个核心量之间存在正向的协同关系。这说明模型在完全未经特殊训练时，其实有一种自然的"直觉"，能初步区分好路径和坏路径。

然而，随着GRPO训练的推进，这种协同关系迅速崩溃。大约在训练初期就急剧恶化，两个量之间的关联性趋近于零，意味着模型对每条路径的自信度开始变得均匀，失去了原本的辨别能力。训练有效率（也就是在同一批次里，那些AI的不同尝试结果有差别、能提供真正学习信号的比例）也随之持续下滑。这就是一个典型的"越练越僵"的过程。

加了熵正则化的版本，确实让整体不确定性上去了，但IB-Score的走势却并没有因此改善，两个量的协同关系依然在下滑。这说明熵正则化治标不治本——它让AI看起来更"开放"，但实际上并没有帮助AI学会把开放性用在刀刃上。

更值得关注的是，研究团队的分析揭示了一个深层规律：训练过程中IB-Score保持相对稳定的模型，最终在测试中往往能达到更好的性能，而且训练过程更平稳。这说明维持IB-Score的稳定，不是一个可有可无的锦上添花，而是指向训练成功的一个关键信号。

四、IBTree：像培育一棵有策略的思维树

意识到问题所在，研究团队设计了一套新的训练框架，核心组件是一种名为IBTree（信息瓶颈引导树搜索）的采样策略。

在此之前，GRPO的做法是每次让AI对一道题独立地生成多个完整解答，就像让多个学生各自从头到尾独立做一道题，然后比较谁做得好。这种方式有两个明显的浪费：首先，不同解答的开头往往差不多，只是到了某个关键分叉点才开始走不同的路，如果每次都从头生成，就白白重复了大量相同的推理过程；其次，这种"各自为战"的策略无法利用已有的推理结果来指导接下来生成什么，完全是盲目地撒网。

IBTree的设计思路完全不同，更像是精心规划的一棵决策树。每道题对应一棵树，树的根节点就是题目本身。训练开始时，先从根节点出发生成几条完整的解答路径，得到树的初始框架。然后，关键步骤来了：利用已有路径中每个推理步骤的IB-Score，找出当前整棵树中IB-Score最高的那个节点，也就是最值得进一步探索的思维分叉点，然后专门从这个节点出发再生成几条新路径。接着，更新所有节点的IB-Score，再次选出最值得探索的节点，继续扩展。如此反复迭代，直到生成足够数量的路径。

这个过程有一个自然的类比：当你在一个陌生城市开车找地方时，一个聪明的导航策略不是让你同时走所有可能的路，而是先大致探索几条主干道，然后在那些"感觉路况最复杂、最可能藏着捷径"的路口进行更细致的勘察，而不是对每个路口都一视同仁。IBTree就是这样的智能导航策略，它把有限的"探索预算"优先投入到最有价值的节点上。

这种设计带来了一个显著的效率提升：在相同的词元预算（可以理解为相同的计算成本）下，IBTree能生成比独立采样多50%的有效路径。具体来说，标准的独立采样每题生成8条完整解答，而IBTree能生成12条，但总消耗的词元数量是一样的。这是因为IBTree通过树形结构实现了路径前缀的共享——同一棵树上不同分支的公共前缀只需要计算一次。

IBTree还有一个额外的好处：树形结构天然地为IB-Score的计算提供了所需的信息。计算每个节点的IB-Score，需要知道从这个节点出发继续解题能有多大概率成功，而IBTree扩展过程中已经从每个节点生成了若干条路径，这些路径的成功率正好可以用来估算所需的概率，形成一个计算上的良性循环。

五、让IB-Score变成训练信号：局部优势与全局优势的协作

有了IBTree提供的丰富信息，研究团队进一步把IB-Score直接嵌入到训练目标中，让AI不只是被动地被测量，而是主动地被引导去提升自己的IB-Score。

原有的GRPO方法只使用了一种"全局优势"作为训练信号：某条完整解答路径答对了就是好的，答错了就是坏的，用这个来告诉AI哪些做法值得加强、哪些值得削弱。这种信号是粗粒度的——它只评价整体结果，无法告诉AI在哪一个具体推理步骤上走对了、哪一步走错了。

IB-TPO在此基础上增加了一种"局部优势"，直接基于IB-Score来衡量每一步推理对整体推进的贡献。具体来说，从某个父节点分出来的不同子节点（也就是下一步推理的不同选择），可以通过比较它们各自后续解题成功率来判断哪个子节点更值得走。如果从某个子节点出发，后续成功率明显高于从父节点出发的平均成功率，那这个子节点就有正的局部优势，应该被鼓励；反之则应该被抑制。

这个局部优势与全局优势相结合，形成了一个层次分明的训练信号体系：全局优势告诉AI大方向有没有走对，局部优势则在此基础上精确指出具体哪个推理步骤功不可没、哪个步骤是弯路。两者配合，远比单独使用任何一个更有效。通过一系列消融实验（也就是系统地把各个组件逐一拆除，看缺了哪个部分性能下降最多的测试），研究团队验证了这个组合效果：单独使用IBTree有一定提升，单独使用IB-based局部优势也有一定提升，而两者结合才能达到最佳效果，而且IBTree不能被随机树或其他策略简单替代。

六、实验结果：数字背后的实际意义

研究团队在多个不同规模的模型和多个不同类型的测试集上验证了IB-TPO的效果。

训练所用的基础模型是阿里巴巴自研的Qwen3系列，分别使用了1.7亿参数规模的Qwen3-1.7B-base和80亿参数规模的Qwen3-8B-base。训练数据是一个包含约1.7万道具有挑战性数学题的数据集DAPO-Math-17K。评测则覆盖了多个标准测试集，包括MATH-500（一个包含500道竞赛级数学题的综合测试）、AIME 24/25（美国数学邀请赛题目）、AMC 23/24（美国数学竞赛题目）以及两个跨领域测试：考察科学推理能力的GPQA Diamond和考察指令遵循能力的IFeval。

在1.7B规模上，普通GRPO的整体得分为26.3%，而IB-TPO达到了29.2%，提升了2.9个百分点。在8B规模上，GRPO得分40.7%，IB-TPO达到44.3%，提升了3.6个百分点。这个提升不只体现在数学题上，在跨领域的科学推理和指令遵循上也有明显进步，说明IB-TPO学到的能力有一定的泛化性，不只是针对数学题的专项优化。

与其他同类方法相比，IB-TPO同样占据优势。在8B规模上，GRPO加上裁剪阈值调整是41.0%，加上熵正则化是41.4%，IBRO（另一个把信息瓶颈用于序列级正则化的方法）是41.6%，TreeRL（基于熵引导树搜索的方法）是42.0%，TreePO（限制树宽度的树搜索方法）是41.6%，而IB-TPO是44.3%，超过了所有对比方法。

研究团队还专门比较了通过pass@K（在K次尝试中至少答对一次的概率）来衡量的探索能力，这个指标能直接反映AI的搜索空间是否被充分保持。结果显示，IB-TPO在各个K值下都明显领先，说明它不只是在单次回答准确率上做得更好，而是真正保持了更丰富的探索能力。

在采样效率的详细对比中，研究团队测试了多种不同的树采样策略。随机分支策略的有效率只有48.4%，固定宽度树是59.4%，熵引导分支是57.8%，而IB-Score引导的IBTree在β=5时达到了60.2%，同时整体解题准确率也最高。这说明IBTree不只是在数量上胜出，在质量上也同样领先。

研究团队还测试了IB-TPO在更长上下文设置（4K和8K词元限制）下的表现，以及在更大参数规模（140亿参数的Qwen3-14B-base）和不同任务领域（代码生成任务、使用Llama 3.1-8B-Instruct模型）的表现，结果一致显示IB-TPO的优势能够稳定保持，不因模型大小、上下文长度或任务类型而消失。

七、细节经得起推敲：各项设计都有据可查

任何新方法都需要证明自己的设计选择不是随意为之，研究团队通过一系列严谨的消融实验回答了几个关键问题。

关于IB-Score中的权衡系数β，研究团队测试了三个值：1.0、5.0和10.0。β=5时采样有效率最高（60.2%）、整体准确率最高（23.2%），且词元消耗最少（7592个），是三者中最优的组合，而β=10时性能有所下滑，说明这个参数并非越大越好，存在一个最优区间。

关于局部优势权重λ，测试了0、0.05、0.1、0.5四个值。完全不使用局部优势（λ=0）时性能最差，λ=0.1时达到最优，λ=0.5时性能明显下滑。这说明局部优势是一个有用但需要适度使用的补充信号，而不是越强越好。

研究团队还专门测试了IB-TPO对步骤边界噪声的鲁棒性。他们使用双换行符来分隔思维步骤（这是一种简单、无需额外训练的自然分界方式），然后人工扰动10%的分界位置，把它们随机移动到不该有分界的地方，模拟边界划分不准确的情况。结果显示性能几乎没有变化，说明IB-TPO对步骤边界的定义不敏感，实用性较强。

在运行效率方面，研究团队也进行了透明的测量和讨论。由于IBTree需要多轮迭代式扩展，并行度比直接生成多条独立解答要低一些，单棵树的运行时间会稍长。但当并行处理多棵树（也就是同时处理多道题目）时，这个差距会随并行度提高而迅速缩小。团队还发现，通过让不同树的扩展过程异步进行，可以进一步减少等待时间，实现约15%的额外加速。在等效词元预算下，IBTree（生成12条路径）的运行时间只比独立采样（生成8条路径）多约31%，但多出了50%的路径数量，综合效率是正向的。

归根结底，这项研究做了一件听起来简单但实际上相当精妙的事情：它用一个同时衡量"多样性"和"方向感"的评分指标，取代了原来只看"多样性"本身的粗糙方法，并围绕这个评分指标构建了一套完整的采样与训练体系。结果是，AI不再在"太死板"和"太散漫"之间来回摇摆，而是找到了一条两者兼顾的稳定道路。

这个思路或许对所有需要在"保留可能性"和"聚焦最优解"之间做权衡的系统都有启示意义——无论是AI训练，还是现实中的决策过程。对希望深入了解技术细节的读者，论文原文可通过arXiv编号2605.28109获取。

Q&A

Q1：IB-Score和普通熵值有什么区别，为什么不直接用熵来衡量AI的探索状态？

A：普通熵只衡量AI对各条推理路径的自信度是否均匀，也就是"是不是够不确定"。但均匀的不确定性并不等于有效的探索，AI可以对每条路径同样迷茫，但对哪条路更接近正确答案毫无感知。IB-Score在熵的基础上引入了"信息增益"维度，要求AI的高自信度必须精准集中在那些真正有助于解题的路径上。实验也印证了这一点：强行增加熵不能提升性能，有时反而导致AI生成大量无意义重复词语，即"过度探索"。

Q2：IBTree采样比普通独立采样更复杂，实际训练速度会慢多少？

A：IBTree通过共享路径前缀，能在相同词元预算下多生成50%的路径（从8条增加到12条）。单棵树的单次运行时间确实略长，但当并行处理多棵树时差距会快速缩小。研究团队还发现，通过让不同树的扩展过程异步进行，可以减少约15%的等待时间。在等效词元预算下，IBTree总体运行时间仅比独立采样多约31%，但路径数量多了50%，综合来看效率是正向的。

Q3：IB-TPO只适用于数学推理任务，还是可以用在其他类型的AI任务上？

A：研究团队已在多个方向验证了IB-TPO的泛化能力。除数学推理外，他们还在代码生成任务（使用Llama 3.1-8B-Instruct模型，训练数据来自可验证的编程问题集）和指令遵循任务（IFeval测试集）上进行了测试，结果同样显示出明显优势。此外，在更大的140亿参数模型和4K、8K更长上下文设置下，IB-TPO的提升效果同样稳定保持，说明这套方法具备较强的通用性。

标签：训练 ibtree 正则化推理 grpo

上一篇：夜光云究竟是什么又该如何观测它们
下一篇：手握多款CELMoD药物，BMS正在血液赛道全速发力

阿里云计算团队如何让AI“边探索边利用”，告别训练失控的烦恼？

相似文章

资讯分类

热门资讯

热门标签

热门产品