近期,大湾区大学信息科学技术学院乔子越课题组的研究论文 Detecting the Semantic Fixed Point: A Geometric Framework for Efficient Inference 被机器学习领域国际会议 ICML 2026 录用为 Oral 报告。ICML被中国计算机学会评选为CCF-A类国际会议,与NeurIPS、ICLR并称为人工智能机器学习领域最权威的三大国际顶级学术会议。本届 ICML 共收到 23,918 篇投稿,录用 6,352 篇,其中 168 篇入选 Oral(仅占录用文章的 2.64%)。第一作者为乔子越课题组博士后顾嘉伟,唯一通讯作者为乔子越。
图 1. LLaMA-2-7B 隐状态轨迹的两相结构。
研究背景与方法
像 ChatGPT 这样的大语言模型,每回答一个问题都要让数据从头到尾穿过几十层网络,无论问题是“法国首都是哪里”,还是一道复杂的推理题,走的层数都一样,这造成大量算力浪费。学界很早就想让模型对简单问题“早点停下来”,用更少的层数来做高效推理。
但已有方法普遍存在一个矛盾:为了判断“现在能不能停”,需要把当前结果跟全部三万多个候选词逐一比对,这个判断本身就很费时间,几乎抵消掉提前停下来省出的算力。在常用的 LLaMA-2-7B 模型上,主流方法理论上能加速 1.47 倍,实际只快了 1.14 倍。
针对这一难题,研究团队换了一个思路。我们把模型的逐层推理类比成一个数值迭代过程,关心的不是模型当前的自信程度,而是模型的内部表示是否在变化。在多个数据集上的实验显示了一个清晰的规律:模型前若干层一直在大幅修改自己对问题的理解,到某一层之后,内部表示几乎不再变动,只是把已经形成的答案沿着剩下的层往后送。这个转折发生得非常干脆,通常在两三层之内完成,而且越是难的问题,转折点出现得越晚。这意味着只要监测内部表示的变化幅度和方向是否都稳定下来,就能判断模型已经可以安全提前结束计算。这个判断只用对一个向量做几次简单运算,跟词表大小完全无关,也不需要任何额外训练。团队把这个方法称为 GCEE(Geometric Convergence Early Exit,基于几何收敛的早退机制)。

图 2. GCEE的诊断分析结果。
结果显示,GCEE 在 LLaMA-2-7B 和 13B 上的四项基准(TriviaQA、NQ、HellaSwag、WinoGrande)精度保留率均超过 97%,平均节省 34% 算力,实际推理速度提升 1.45 倍,接近 1.51 倍的理论上限;主流的基于熵的方法在相近算力节省下只能加速 1.14 倍,差距来自其每层判断耗时约 2.5 毫秒,而 GCEE 不到 0.1 毫秒。同样的两相演化现象在 LLaMA-2(7B/13B/70B)、Mistral、Qwen、Phi-2、BERT、T5 等八种主流模型上都成立,模型规模越大,转折越清晰,说明这是 Transformer 这一类模型的共性。文章还给出了配套的理论分析,证明在所观察到的收敛条件下,提前退出不会改变模型最终的预测结果。
作者信息:
第一作者顾嘉伟,大湾区大学信息科学技术学院乔子越课题组博士后;通讯作者乔子越,大湾区大学信息科学技术学院助理教授;合作作者罗霄,美国威斯康星大学麦迪逊分校助理教授。
【乔子越课题组招聘】
课题组长期招收优秀博士后、特任研究员、硕博生、研究助理及访问学生,联系方式:ziyuejoe@gmail.com