请输入关键字
东莞市大湾区高等研究院
大湾区高等研究院(GREAT BAY INSTITUTE FOR ADVANCED STUDY)是一所以基础性、战略性、前沿性研究为目标,以提升科技创新策源能力、培养创新人才为宗旨,以研究生培养为起点的公立高水平科研教学机构,也是加速推动大湾区大学筹建工作的支撑实体。现已布局网络与信息安全研究中心、智能计算研究中心、智能机器人研究中心、流程工业智能化研究中心、先进材料与绿色能源研究院、人工智能研究院。

联系方式:gbias@gbu.edu.cn
新闻资讯
异构数据下的非凸复合联邦学习
张娇娇1     ·   户将2     ·   Mikael Johansson3 1大湾区大学   2清华大学求真学院   3瑞典皇家理工学院(KTH)   摘要 我们提出了一种新颖算法,用于求解含非光滑正则项的非凸复合联邦学习问题。该算法通过解耦邻近算子与通信以处理非光滑项,无需任何数据相似性假设仍可克服节点漂移;节点执行多步本地更新以降低通信频率,且每轮仅需传输一个d维向量。我们严格证明了算法的收敛精度与速率,并通过数值实验验证了其有效性。   图1:所提算法的工作流程   研究背景 联邦学习是当前主流的分布式机器学习框架:中心服务器协调多个工作节点在不共享本地数据的情况下协作训练全局模型,广泛应用于机器学习、无线网络和物联网等领域。 与传统分布式学习相比,联邦学习面临更严重的通信瓶颈以及节点间数据异构的挑战。经典的联邦平均算法(FedAvg)通过让各节点在上传前执行多次本地更新来降低通信频率,但在数据异构时会出现明显的节点漂移问题,导致求解精度下降。 现有改进方法(如 SCAFFOLD、Mime)虽能缓解漂移,但往往需要额外传输控制变量,增加了通信成本。此外,大多数已有算法仅处理光滑优化问题,而实际中频繁出现含约束条件或稀疏/低秩约束的非光滑目标函数。本工作正是针对这一空白展开研究。 核心贡献 我们提出的算法针对如下复合联邦学习问题:最小化光滑(可能非凸)损失函数与凸非光滑正则项之和,且不对各节点本地数据分布作任何相似性假设。所提算法的工作流程如图1所示。算法的四大关键优势如下:       ▸ 解耦邻近算子与通信:  每个节点维护操作前后两个变量,将邻近算子计算与通信步骤彻底解耦。节点仅需将未经邻近操作的中间变量上传至服务器,服务器即可提取各节点的平均梯度信息,从而正确驱动全局模型更新。     ▸ 消除节点漂移:  每次本地更新引入轻量校正项,将全局梯度信息融入本地更新方向,使每个节点的优化目标与全局目标保持一致,从根本上消除异构数据带来的漂移偏差。     ▸ 低通信开销:  与 SCAFFOLD、Mime 等需要额外上传控制变量的方法不同,本算法每轮通信每个节点仅交换一个 d 维向量,通信量与 FedAvg 相当,却具有更强的理论保证。     ▸ 严格收敛性分析:  在强凸、一般非凸以及 Proximal Polyak–Łojasiewicz(PL)条件下,均给出了收敛精度与速率的完整理论证明。     数值实验 我们在带 ℓ₁ 正则项的 MNIST 手写数字分类任务上对所提算法进行了验证,使用 CNN 模型,在三种数据异构程度(60%、80%、90%)以及两种本地更新步数(τ = 5 和 τ = 10)下与基线方法 FedDA 进行对比。   表:MNIST 分类准确率(%)对比结果 算法 τ = 5 τ = 10 60% 80% 90% 60% 80% 90% 本文算法(Ours) 96.0 96.2 96.2 96.3 96.3 96.3 FedDA 94.7 92.5 89.7 94.1 91.1 86.2 相对提升 +1.3% +3.7% +6.5% +2.2% +5.2% +10.1%     结果表明,本文算法在不同异构程度和本地更新步数下均保持稳定的高准确率。尤其在高异构场景(90%)下,τ = 5 时相对提升 6.5 个百分点,τ = 10 时相对提升高达 10.1 个百分点,充分验证了算法在处理异构数据时的显著优势。     全文参考 [1] Jiaojiao Zhang, Jiang Hu,Mikael Johansson. Non-convex composite federated learning with heterogeneous data. Automatica, 183:112695, 2026.
2026.04.27
高阶优化算法 | 非凸无约束优化中三阶张量方法的高效实现
东莞市大湾区高等研究院智能计算研究中心、大湾区大学信息科学技术学院刘洋助理教授与牛津大学数学系Coralia Cartis教授、Raphael Hauser教授、Karl Welzel博士、Wenqi Zhu博士合作,在非凸无约束优化的三阶张量方法高效实现方面取得重要进展。相关成果以“Efficient Implementation of Third-order Tensor Methods with Adaptive Regularization for Unconstrained Optimization”为题,发表于数值优化领域重要期刊Mathematical Programming Computation(MPC, 2026)。该期刊由国际数学优化学会(MOS)主办,所发表的论文均要求附带源代码与可复现实验,在JCR应用数学和软件工程两个类别下均为Q1期刊。刘洋为论文唯一通讯作者兼共同第一作者,大湾区大学为论文唯一通讯单位。 在最坏条件复杂度理论中,使用更高阶导数信息的优化方法通常所需的外层算法迭代次数更少。然而,这一理论优势能否在一般非凸问题上稳定兑现,长期缺少系统性的经验证据。具体而言,从算法的综合代价(如函数与导数调用次数、子问题求解次数等)来看,三阶方法是否能稳定胜过成熟的二阶方法,也尚无系统的实证答案。团队在这项工作中重新审视了三阶以及更高阶方法,识别出制约其实际效率的两个核心问题。 其一,团队发现并刻画了一类新颖的高阶算法机理。在三阶及以上的正则化子问题中,以子问题全局最优解为代表的部分极小点(称为“瞬态极小点”),可能随正则化参数的增大而消失;另一部分极小点(称为“恒态极小点”)则在出现后稳定变化。作为对照,二阶方法的子问题全局最优解永远是恒态的,这是二阶方法长期稳健的一个隐性保障;然而该保障不适用于三阶及以上方法。基于对这两类极小点的严格区分,团队系统地设计了一种预拒绝机制,使算法在调用目标函数求值之前即可识别并剔除沿瞬态方向的试探步,显著降低了数值上体现为无效的迭代次数。 其二,团队初步给出了应对高阶算法高额存储需求的技术方案。显式存储三阶张量的内存代价为O(d³),以维度d=16,384的问题为例,这意味着需要约32TB的内存空间去储存单个三阶张量,远超普通工作站的承载能力。团队采用基于Krylov子空间的迭代求解器,实现了三阶方法的无矩阵、无张量(Hessian-free & tensor-free)架构,算法全程只需调用Hessian-向量乘积与三阶张量-向量-向量乘积,无需显式存储完整的Hessian矩阵与三阶张量。这将内存需求从O(d³)降至O(d),使原本需32TB显式存储的问题可以在普通工作站上求解。 除上述两项主要贡献之外,团队还将[Gould, PorcelliToint, Comput. Optim. Appl. (2012) 53:1–22]中针对二阶方法提出的一维插值型正则化参数更新策略推广到任意p阶(p≥2)情形,使自适应参数更新在三阶及以上方法中同样适用。整合了上述方法的新算法在35个Moré-Garbow-Hillstrom经典测试问题上的基准评测中,于函数求值、导数求值、子问题求解三项指标上均优于标准的二阶方法。 本工作标志着两件事:其一,团队首次系统刻画了三阶及以上子问题中恒态极小点与瞬态极小点的区分,它既是预拒绝机制的理论基础,也为后续高阶方法的设计提供了新的研究角度。在三阶及以上方法中,盲目追求子问题的全局最优并不总是必要的;更关键的是选到合适的局部极小点;这一推论也在我们的数值实验中得到了印证:高阶方法中的有效迭代步无需依赖代价昂贵的子问题全局求解,仅靠局部求解配合对极小点的区分即可获得,从而为可扩展性提供了依据。其二,团队已初步具备应对高阶算法高额存储需求的技术方案,无矩阵、无张量的实现方案让三阶方法首次可被应用到维度过万的大规模问题上。综合这两项贡献,本工作在理论分析与算法实现两个层面,为高阶优化方法的进一步探索提供了新的视角与工具。 该研究得到香港创新科技署(InnoHK Project CIMDA)的资助;Coralia Cartis教授与Raphael Hauser教授另由英国EPSRC项目EP/Y028872/1“智能的数学基础:面向AI的‘埃尔朗根纲领’”(Mathematical Foundations of Intelligence: An "Erlangen Programme" for AI)资助。       论文链接:https://doi.org/10.1007/s12532-026-00313-6 代码开源:https://github.com/karlwelzel/ar3-matlab
2026.04.27
AI for Science | 主动机器学习筛选非等主元高熵催化剂
东莞市大湾区高等研究院智能计算研究中心、东莞市先进材料人工智能设计重点实验室夏广杰研究员与香港城市大学机械工程系赵仕俊副教授、江南大学、松山湖材料实验室等科研单位合作,在高熵电催化剂的智能逆向设计与快速筛选方面取得了重要进展。研究团队提出了一种基于主动学习(Active Learning)的“自上而下”逆向设计策略,有效突破了高熵催化剂成分空间巨大、计算成本高昂、传统机器学习依赖大规模DFT数据等瓶颈。 该研究将密度泛函理论(DFT)、图注意力神经网络(AGAT)、条件生成对抗网络(CGAN)与主动学习有机整合,实现了对高熵电催化剂组成空间的智能探索,并成功发现一系列具有优异析氢反应(HER)活性的非等主元高熵催化剂。相关成果以“Boosting screening of non-equiatomic high-entropy electrocatalysts by inverse design via active graph learning”为题发表在期刊ACS Catalysis(中科院一区,影响因子13.1)。智能计算研究中心为第一单位,博士后张俊为第一作者。   研究背景 高熵合金因其多主元特性与复杂的局域结构,在能源催化领域展现出巨大潜力。然而,高熵体系的成分空间随包含的元素种类增多呈指数级膨胀,使得传统基于实验上的试错尝试与理论上的DFT穷举构型变得极为困难。普遍认为,高熵电催化剂(HEECs)的性能源于其复杂组成导致的“鸡尾酒效应”,但这种效应既难以通过经验判断,也难以通过简单模型准确预测。先前的深度学习方法虽能辅助预测性能,但其需要大量DFT数据组成数据集,这些数据的计算也需要大量时间。因此,发展一种能在较少DFT样本条件下高效探索高熵成分空间的逆向设计策略具有重大意义。   研究成果 本研究构建了一个由CGAN、AGAT图神经网络、KNN与高通量DFT组成的主动学习框架。通过15轮主动学习循环,模型实现收敛,训练后的AGAT模型在能量和原子受力预测上的误差仅为0.002 eV/atom与0.040 eV/Å,达到或超越现有高熵催化剂机器学习势能面的先进水平。最终成功推荐了一系列高性能非等原子比高熵催化剂。研究进一步揭示了各元素的作用,即:Pd与Pt是HER的关键活性位点,决定反应中心的电子结构;Ni、Co、Fe虽活性较弱,却可通过构型熵带来局域电子结构扰动,实现“鸡尾酒效应”;混合后的d带中心较纯金属显著优化,证实多主元高熵合金在电子态调控中的优势。   研究意义 本研究提出了一种高效、可扩展的逆向设计策略,大大减少了高熵电催化剂机器学习模型所需的DFT数据量,有望成为高熵催化剂成分设计新范式。在催化机理上,本研究形象地展现了高熵合金“鸡尾酒效应”的来源:Pd/Pt为活性中心,Ni/Co/Fe通过构型熵触发鸡尾酒效应,优化活性中心的性能。该工作不仅为高熵材料的智能化设计提供了强有力的技术路线,更为下一代电催化剂研发提供可推广框架。 图1 (a)用于筛选高性能高熵催化剂的主动学习循环;(b)主要探索成分的ΔGH;(c)各元素作用;(d)构型熵与d带中心变化的关联。     论文链接 https://doi.org/10.1021/acscatal.5c05945
2026.01.12