中国科学报头版：科研人员挑战深度学习优化难题-北京交通大学新闻网

01: 校党委理论中心组扩大会议专题学习习近平总书记重要讲

02: 我校12个学科入围2025年QS世界大学学科排名创历史新高

03: 学校召开2025年度工作会议、第九届教代会、第十四届工

04北京交通大学干部师生对全国两会

05中共北京交通大学第十二届委员会

06陈子季余祖俊带队检查春季学期教

07学校召开2025年春季学期领导班子

08陈子季余祖俊带队走访慰问寒假在

09学习贯彻习近平总书记重要回信精

10北京交通大学举办2024年度总结表

011王稼琼一行赴雄安新区考察调研

012北京市副市长杨斌来校宣讲党的十

媒体交大

您当前的位置：首页 > 媒体交大 > 正文

中国科学报头版：科研人员挑战深度学习优化难题

近日，北京交通大学教授周声龙、罗自炎团队在《自然-机器智能》发表研究成果，为深度学习优化领域的技术突破提供了全新解决方案。

当前，基础大模型的快速发展正在全球范围内引发范式转变，深刻重塑各行各业的发展模式。但长期以来，训练这些大模型所采用的主流优化器均基于随机梯度下降算法开发，存在收敛速度慢、对收敛条件假设苛刻等固有局限，特别是在分布式环境中出现的数据异质性问题，给算法的理论分析与数值性能带来了巨大挑战。这些已成为资源受限下制约大模型高效训练与广泛应用的关键瓶颈。

针对挑战，研究团队提出了一种全新的优化算法——预条件非精确随机交替方向乘子法（PISA）。该算法突破了收敛效率低、强假设依赖、计算复杂度高、泛化性不足四大核心瓶颈，为大模型训练提供了更高效稳健的技术路径。

该算法的创新之处在于，通过预条件化框架整合二阶信息、动量与正交化等技术，实现了高效并行计算，可适配各类大规模深度学习场景。与传统算法相比，PISA展现出显著优势：在理论层面，在弱假设下实现线性收敛，因无需数据独立同分布、梯度有界、方差有界等强约束，能有效处理数据异质性难题；在实践层面，其衍生变体计算高效、泛化性强，在视觉模型、大语言模型、强化学习、生成对抗网络等多种模型架构的训练与微调中，收敛速度、精度与稳定性均超越主流优化器。

相关论文信息：https://doi.org/10.1038/s42256-026-01182-3

报道来源：《中国科学报》 (2026-03-25 第1版要闻) https://news.sciencenet.cn/sbhtmlnews/2026/3/388952.shtm

分享到：

关于我们 | 投稿须知 | 联系我们