大湾区大学

首页 > 组织机构 > 学术部门 > 信息科学技术学院 > 学院动态 > 新闻资讯

乔子越课题组论文被 ICML 2026录用为Oral报告

2026/05/25 来源: 编辑:

近期，大湾区大学信息科学技术学院乔子越课题组的研究论文 Detecting the Semantic Fixed Point: A Geometric Framework for Efficient Inference 被机器学习领域国际会议 ICML 2026 录用为 Oral 报告。ICML被中国计算机学会评选为CCF-A类国际会议，与NeurIPS、ICLR并称为人工智能机器学习领域最权威的三大国际顶级学术会议。本届 ICML 共收到 23，918 篇投稿，录用 6，352 篇，其中 168 篇入选 Oral（仅占录用文章的 2.64%）。第一作者为乔子越课题组博士后顾嘉伟，唯一通讯作者为乔子越。

图 1. LLaMA-2-7B 隐状态轨迹的两相结构。

研究背景与方法

像 ChatGPT 这样的大语言模型，每回答一个问题都要让数据从头到尾穿过几十层网络，无论问题是“法国首都是哪里”，还是一道复杂的推理题，走的层数都一样，这造成大量算力浪费。学界很早就想让模型对简单问题“早点停下来”，用更少的层数来做高效推理。

但已有方法普遍存在一个矛盾：为了判断“现在能不能停”，需要把当前结果跟全部三万多个候选词逐一比对，这个判断本身就很费时间，几乎抵消掉提前停下来省出的算力。在常用的 LLaMA-2-7B 模型上，主流方法理论上能加速 1.47 倍，实际只快了 1.14 倍。

针对这一难题，研究团队换了一个思路。我们把模型的逐层推理类比成一个数值迭代过程，关心的不是模型当前的自信程度，而是模型的内部表示是否在变化。在多个数据集上的实验显示了一个清晰的规律：模型前若干层一直在大幅修改自己对问题的理解，到某一层之后，内部表示几乎不再变动，只是把已经形成的答案沿着剩下的层往后送。这个转折发生得非常干脆，通常在两三层之内完成，而且越是难的问题，转折点出现得越晚。这意味着只要监测内部表示的变化幅度和方向是否都稳定下来，就能判断模型已经可以安全提前结束计算。这个判断只用对一个向量做几次简单运算，跟词表大小完全无关，也不需要任何额外训练。团队把这个方法称为 GCEE(Geometric Convergence Early Exit，基于几何收敛的早退机制)。

图 2. GCEE的诊断分析结果。

结果显示，GCEE 在 LLaMA-2-7B 和 13B 上的四项基准(TriviaQA、NQ、HellaSwag、WinoGrande)精度保留率均超过 97%，平均节省 34% 算力，实际推理速度提升 1.45 倍，接近 1.51 倍的理论上限；主流的基于熵的方法在相近算力节省下只能加速 1.14 倍，差距来自其每层判断耗时约 2.5 毫秒，而 GCEE 不到 0.1 毫秒。同样的两相演化现象在 LLaMA-2(7B/13B/70B)、Mistral、Qwen、Phi-2、BERT、T5 等八种主流模型上都成立，模型规模越大，转折越清晰，说明这是 Transformer 这一类模型的共性。文章还给出了配套的理论分析，证明在所观察到的收敛条件下，提前退出不会改变模型最终的预测结果。

作者信息：

第一作者顾嘉伟，大湾区大学信息科学技术学院乔子越课题组博士后；通讯作者乔子越，大湾区大学信息科学技术学院助理教授；合作作者罗霄，美国威斯康星大学麦迪逊分校助理教授。

【乔子越课题组招聘】

课题组长期招收优秀博士后、特任研究员、硕博生、研究助理及访问学生，联系方式：ziyuejoe@gmail.com

新闻资讯

信息公开

学校概况

师资队伍

招生信息

教育教学

合作交流