香港科技大学研究揭示AI科研助手为何总是在“原地打转”

发布时间:2026-06-03 02:34  浏览量:1

这项由香港科技大学领导的研究以预印本形式发布于2026年5月,收录于arXiv平台,编号为arXiv:2605.27905v1,归属于计算机科学与自然语言处理领域。有兴趣深入了解的读者可通过该编号查询完整论文。

近几年,AI领域出现了一类令人兴奋的新工具——AI科研助手。这类工具不只是帮你查资料或整理文献,它们能自己提出研究想法、设计实验方案、甚至写出完整的学术论文草稿。听起来是不是像科幻小说里的情节?然而这已经是正在发生的现实。面对这样的技术突破,一个自然而然的问题随之浮现:这些AI助手到底是在帮科学家开疆拓土,还是只是在已经踩熟的老路上反复徘徊?

香港科技大学的研究团队对此产生了浓厚的兴趣。他们没有满足于"AI生成的想法听起来很聪明"这个表面印象,而是做了一件更严肃的事情——系统性地追问:AI生成的科研想法,究竟有多"新"?它们和人类科学家的真实研究相比,探索的范围是更广阔还是更狭窄?研究结论出人意料,却又在某种程度上令人信服:**当前的AI科研助手更像是一位精通整理已有地图的专家,而不是一位愿意踏入未知荒野的探险家。**

一、科研助手大测评:他们用了多大规模的实验

要回答"AI科研助手到底能不能拓展科学边界"这个问题,香港科技大学的团队选择了一种既严格又有说服力的方式:大规模、系统性的对比实验。

研究团队首先构建了一个庞大的学术文献库,收集了来自机器学习三大顶级会议——ICLR、NeurIPS、ICML的共计34698篇论文,时间跨度从2019年到2025年,每篇论文都包含标题、摘要、关键词以及引用关系。有了这批原材料,他们用一种叫"文献耦合"的方法把这些论文分成不同的研究领域。所谓文献耦合,说白了就是:如果两篇论文经常引用同样的参考文献,那它们研究的问题大概率是相关的——就像两个人经常去同一家书店买书,很可能有共同的阅读口味。通过这种方式,研究团队最终识别出19个活跃的研究领域,涵盖强化学习、图神经网络、AI公平性、在线算法、组合优化等热门方向。

接下来是实验的核心部分。研究团队从2022年至2025年的文献中,为每个研究领域反复随机抽取"种子文献"——每次抽5篇,其中一篇是核心论文,另外四篇是与其相关的文献——然后把这5篇论文喂给AI科研助手,让AI基于这些文献提出新的科研想法。这个过程重复了2140次,覆盖了所有研究领域。

更重要的是,研究团队不满足于测试一个AI工具,而是同时测试了四种代表性的AI科研助手框架,再分别搭配六种大型语言模型来运行。这四种框架分别是:最简单直接的零样本生成(让AI直接基于文献输出想法)、AIScientist(通过反复自我审视和修改来打磨想法)、ResearchAgent(把提想法的过程拆成问题发现、方法设计、实验规划三个阶段,每个阶段还有另一个AI来打分评估)、以及AgentLaboratory(让扮演"博士后"和"博士生"角色的不同AI通过对话来共同制定研究计划)。搭配的六种语言模型来自Qwen、Llama、Gemma三个家族,参数规模从0.8亿到350亿不等。

整个实验总共产生了51360次生成尝试,其中37802次成功产出了有效的科研想法。这个数字足够大,足以让研究结论具有统计可靠性。值得一提的是,这些AI助手的提示词里都明确要求它们提出"新颖的、高影响力的、与现有工作不同的"想法——换句话说,研究者给了AI充分的"鼓励"去大胆探索,但结果依然让人若有所思。

二、AI总在"地图中心"徘徊,而人类喜欢往边缘走

拿到了37802个AI生成的科研想法之后,研究团队的第一个问题是:这些想法在知识空间里的分布,和人类科学家的论文相比,是更集中还是更分散?

为了回答这个问题,研究团队把每一个AI生成的想法和每一篇人类论文都转换成了一个数学向量——可以把这理解为在一张无形的"知识地图"上标出每篇文章的坐标位置。两篇文章在这张地图上越近,代表它们研究的内容越相似;越远,代表越不同。

结果非常清晰。在同一个研究领域内,AI生成的想法之间的相似度在0.82到0.84之间;而人类论文之间的相似度只有0.77。这个差距看起来不大,但放在学术研究的语境下,它意味着AI想法扎堆聚集在知识地图的某几个热门区域,而人类研究则更分散地探索着更宽广的范围。

更耐人寻味的是,用四种不同框架生成的AI想法,彼此之间的相似度高达0.81到0.84——几乎和同一框架内部生成的想法一样相似。这说明,不管是让AI自我反思、还是多阶段验证、还是让两个AI角色对话讨论,最终产出的想法都指向了大致相同的概念区域。换句话说,更复杂、更"高端"的AI框架,并没有让探索范围明显变宽。

研究团队还用了另一种测量方式来交叉验证这个结论:计算每篇文章与其所在研究领域"重心"的距离。结果同样一致——AI生成的想法距离领域重心的平均距离是0.091,而人类论文距离重心的平均距离是0.121。AI想法更紧密地围绕着领域的核心地带,而人类研究则更愿意在边缘地带甚至相邻领域里游荡。

用一个形象的比喻来说:这就像一场城市探索活动。人类探险者喜欢往城市的边缘街区、甚至隔壁城市跑,有时会迷路,但也会发现意想不到的风景。而AI探险者则更倾向于反复拍摄市中心最热闹的广场——那里安全、有据可循,每次拍出来的照片都很好看,但实际上你已经见过很多次这个广场了。

三、AI不愿离开"出发点",人类却在不断前进

第一个发现告诉我们AI想法太集中;第二个问题则更进一步:AI生成的想法,和最初喂给它的那5篇"种子论文"相比,有没有走出足够远的距离?

研究团队为每一组种子论文找到了对应的"人类跟进研究"——也就是那些后来引用了这5篇种子论文中至少两篇的后续人类论文。这批人类跟进研究代表了科学界在看到同样出发点之后,实际走向了哪里。

对比结果同样清晰。AI生成的想法与种子论文之间的相似度是0.92,而人类跟进研究与同样的种子论文之间的相似度只有0.88。这意味着AI想法距离出发点更近,人类研究走得更远。更有意思的是,AI想法与人类跟进研究之间的相似度是最低的,只有0.82——说明AI和人类在看到同样的文献之后,选择了相当不同的前进方向。

研究团队还用了主成分分析(一种把多维数据投影到二维平面上的方法,可以帮助我们直观地"看到"数据分布)来可视化这一现象。在每一个案例里,你都能看到相同的模式:那5篇种子论文聚在某个位置,AI生成的想法紧紧围绕在它们附近形成密集的小圈子,而人类跟进研究则散落在更远的地方,有时甚至跑到了图的另一个角落。

这背后折射出一个关于科学进步的深刻事实。真正推动科学前进的,往往不是沿着现有方向走得更稳更快,而是某一天有人回头问一句"我们为什么要这么走?有没有完全不同的路?"这种提问需要某种程度的"离开舒适区"的勇气,而目前的AI系统,似乎更擅长在舒适区内精耕细作。

四、AI想法扎堆的地方,引用数往往更低

发现AI想法更集中之后,研究团队追问了第三个问题:AI喜欢去的那些知识区域,在科学上是不是真的更有价值?

由于AI生成的想法本身没有真实的引用数据,研究团队采用了一种间接测量方法:找出那些与AI生成想法非常相似(相似度超过0.9)的真实人类论文,然后查看这些人类论文的引用量,并与同年、同领域的平均引用量进行比较。如果AI喜欢的方向确实很有价值,那么这些相似论文的引用量应该高于平均水平;反之则说明AI偏好的方向相对不那么有影响力。

在2359个成功匹配的"AI想法——人类论文"对中,与AI想法最相似的人类论文平均获得了50.4次引用,而同年同领域的平均引用量是54.9次。差距是4.47次,乍看不大,但统计检验表明这个差异不是偶然的(置信区间为负6.41到负2.53,p值小于0.001)。在四个AI框架中,有三个(零样本生成、ResearchAgent、AgentLaboratory)都呈现出显著的低于平均引用量的模式;只有AIScientist的差异没有达到统计显著性。

这个发现的含义是:AI倾向于聚集的那些知识区域,恰恰是科学影响力相对较低的地方。当然,这不是说AI选的方向毫无价值,但确实暗示了一个令人警醒的模式——AI在"安全地带"里产出了大量想法,而这些安全地带恰好不是科学突破最容易发生的地方。

五、AI改的是"怎么做",而不是"做什么"

研究团队的第四个分析维度最为细腻:当AI生成的想法与种子文献确实存在差异时,这种差异主要体现在哪里——是提出了全新的研究问题,还是只是换了一种解决方案?

为了回答这个问题,研究团队对每一个AI生成的想法和每一篇种子论文进行了结构化拆解:提取出"研究问题"(这项工作想解决什么问题?)和"技术方法"(用什么手段来解决?)两个核心要素。然后,他们计算AI想法中的研究问题和技术方法,与种子文献中的研究问题和技术方法的相似度——如果相似度超过0.87,就认为这个元素在种子文献中已经存在;低于这个门槛,才认为它是真正新引入的。

结果呈现出一个非常清晰的不对称性。在研究问题层面,85.1%的AI生成想法提出的研究问题在种子文献中已经存在——AI几乎没有提出全新的"要研究什么"。但在技术方法层面,情况好一些:只有62.6%的AI想法采用了种子文献中已有的技术方法,也就是说,将近四成的AI想法在方法层面引入了一些新东西。

这意味着AI的"创新"主要发生在"换个方式做同一件事",而不是"换个问题来做"。借用地图探索的比喻:AI更像是在说"我们去老地方,但这次换条路走",而不是"我们去一个从没去过的地方"。

这个模式在所有四个框架中保持一致,只是程度略有差异。AIScientist在方法层面引入的新东西最多,而ResearchAgent最保守。但无论哪个框架,研究问题层面的创新都极为稀少——没有新研究问题的比例从79%到88.4%不等。

六、为什么AI会"原地打转":背后的深层原因

把上面四个发现串联起来,一幅完整的图景浮现出来:当前的AI科研助手是极为出色的"局部延伸者",却不是真正意义上的"方向开拓者"。

这并不是因为AI没有被要求创新。恰恰相反,实验中的每一个框架都明确要求AI提出"新颖的"、"不同于现有工作的"、"从未见过的"想法。AgentLaboratory的提示词甚至直接说"你的想法应该非常创新,与任何以前见过的东西都不同"。但这些语言层面的鞭策,似乎并没有真正改变AI输出的知识分布。

原因可能在于AI系统的底层工作方式。大型语言模型是在海量文本上训练出来的,它们擅长识别和复现已有文本中的模式,擅长把不同的已知概念组合在一起。这就像一个博览群书的学者——他能把书里读到的各种知识融会贯通,说出来头头是道,但真正"发现一个从来没有人想到过的新问题",需要的是一种不同的能力:愿意质疑现有框架本身,愿意在没有地图的地方出发。目前的AI系统在这方面存在根本性的局限。

而且,这个局限不随AI的规模和复杂度的增加而自动消失。从0.8亿参数的小模型到350亿参数的大模型,从简单的单次生成到多轮自我反思、多智能体对话,探索的广度并没有随之显著扩大。更强大的AI并没有带来更广阔的科学探索——它带来的更多是更精致、更连贯的"已知方向的延伸"。

归根结底,这项研究提醒我们区分两件不同的事情:**产生听起来合理的科研想法**,和**拓展科学探索的边界**。前者AI已经做得相当不错,后者目前仍主要是人类科学家的专长——或者说,是人类科学家中那些敢于提出"为什么我们从来不这样问问题"的少数人的专长。

随着AI科研助手越来越深地嵌入到科学研究的日常工作流中,这种区分变得越来越重要。如果我们只是用AI来高效产出大量"局部延伸"式的想法,我们很可能在不知不觉中让科学界的集体注意力越来越集中于那些已经有人踩过的方向,而悄悄减少了对真正未知领域的关注。这不是说AI科研助手没有价值——它们在提高研究效率、帮助科学家快速梳理文献、产生初步假设等方面确实很有用。但如果把"产出了很多新想法"误认为"拓展了科学边界",那可能是一种危险的错觉。

下一步真正的挑战,不只是让AI生成更多、更流畅的科研想法,而是探索如何设计出能够帮助人类科学家**走向更陌生、更不确定、但可能更有价值的知识边疆**的AI系统。这才是这项研究留给整个AI和科学社区的真正问题。

Q&A

Q1:AI科研助手和人类科学家在提研究想法时,最大的区别是什么?

A:根据这项研究,AI科研助手生成的想法倾向于紧密围绕已有文献展开,彼此之间高度相似,主要通过重新组合已有技术方法来产生"新"想法,很少提出真正新颖的研究问题。人类科学家则更愿意偏离已有方向,探索更分散、更边缘的知识区域,并且更频繁地重新定义研究问题本身。

Q2:用更大参数规模的语言模型或更复杂的多智能体框架,能让AI科研助手产出更有创意的想法吗?

A:根据这项研究的实验结果,答案是否定的。研究团队测试了从0.8亿到350亿参数的六种模型,以及从简单单次生成到多轮自我反思、多角色对话的四种框架,发现在所有组合下,AI生成想法的集中程度和对已有文献的依赖程度都非常相似。更大、更复杂的系统并没有显著拓宽探索范围。

Q3:AI科研助手生成的想法与哪些真实发表的研究最为相似?

A:研究团队将AI生成的想法与真实论文进行匹配,发现高度相似的例子包括:零样本AI生成的关于"不平衡分类与最优传输"的想法,与一篇2022年发表的使用可学习代价矩阵进行长尾识别的论文相似度达0.954;ResearchAgent生成的关于"动态稀疏训练用于时间序列分类"的想法,与一篇同年发表的动态稀疏网络论文相似度高达0.965。这些例子印证了AI想法更多是已有研究的局部变体,而非全新突破。