网站首页
手机版

参数空间对称性:深度学习理论的统一几何框架

更新时间:作者:小小条


参数空间对称性:深度学*理论的统一几何框架

过去十年,深度学*模型的规模从上百万参数的卷积网络扩展到上千亿参数的大语言模型,性能突飞猛进。然而,我们对这些模型为何有效仍缺乏系统性的理解。一个关键但常被忽视的原因在于:在神经网络中,存在大量 “不同却等价” 的参数配置 —— 它们实现相同的模型函数,却让优化与泛化的分析变得格外复杂。


近日,加州大学圣地亚哥分校与美国东北大学的研究人员发布了一篇综述,系统梳理了这一现象背后的数学结构:神经网络参数空间中的对称性(parameter space symmetry)。这篇长达三十页的论文揭示了对称性如何塑造损失地形、影响优化与训练动力学,并为理解深度学*提供了一个统一的几何视角。



论文链接:https://arxiv.org/abs/2506.13018作者主页:https://b-zhao.github.io/


什么是参数空间对称性?


在一个神经网络中,不同的参数组合可能产生完全相同的输出。最直观的例子是神经元置换:交换隐藏层中两个神经元及其对应的输入 / 输出权重,网络实现的函数不变。


图1 置换对称:交换隐藏层两个单元及其关联权重,函数保持不变


这类保持函数不变的参数变换,被称为参数空间对称性 (parameter space symmetry)。


数学上,它是一组使损失函数 L (θ) 保持不变的变换 g,即 L (g ⋅ θ) = L (θ)。这些变换构成一个群 (group),并在参数空间中定义了等价轨道 (orbit):同一轨道上的参数都表示同一个模型函数。这个视角为理解极小值的连通性、平坦性与优化动态提供了统一语言。


除了离散的置换对称外,几乎所有常见的神经网络架构都还具有连续对称性:


ReLU 网络与 BatchNorm / LayerNorm 等归一层具有正缩放对称;线性层和注意力机制具有一般线性(GL)对称;Softmax 函数具有平移对称;其他结构(如径向激活函数、RBF 网络)也呈现出旋转或尺度类对称。


图 2 (左)ReLU 的缩放对称:对输入权重与偏置按对角矩阵 g 缩放,同时将输出权重乘以 g 的逆矩阵,函数保持不变。(右)自注意力的一般线性对称:键 (WK) 与查询 (WQ) 的线性变换 g 可以互相抵消,输出结果不变。


更重要的是,复杂的现代架构,如 Transformer,其对称性是其各组件对称性的组合。例如,多头注意力机制同时具有每个头内部的广义线性对称性、头之间的排列对称性,以及与输出投影层相关的另一组线性对称性。


从平坦极小值到模式连通性:对称性如何塑造损失地形


对称性让优化空间既复杂又有规律。


连续对称性(如缩放)会将一个孤立的极小值点 “拉伸” 成一个连续、平坦的极小值流形。沿着这个流形移动,损失值保持不变。这意味着网络的许多平坦方向并非来自更好的泛化,而是由结构对称性决定的。因此,传统用平坦度衡量泛化能力的指标需要谨慎解读。


另外,实践中观察到的 “模式连通性”—— 即独立训练得到的模型往往能通过低损耗路径连接 —— 其背后也部分源于连续对称性。对称性天然地在参数空间中创造出连接功能等价参数的连续路径,从而解释了模型融合(model fusion)为何能有效。


图 3 连续对称性与平坦极小值:不同的参数 θ,g1 ⋅ θ,g2 ⋅ θ 具有相同的损失值,构成一条由对称变换生成的平坦轨迹。


离散对称性(如神经元置换)则会在参数空间的不同位置复制出大量功能完全相同的极小值 “副本”。这使损失地形更加复杂,其极小值的数量随网络宽度呈阶乘级增长。


从几何到算法:利用对称性的优化方法


在对称群的作用下,即使两组参数具有相同的损失值,它们的梯度方向和大小也可能不同(图 4 左)。这意味着,即使两组参数在函数意义上等价,它们的训练轨迹仍可能完全不同(图 4 右)。


图 4 相同的损失值可能对应着不同的梯度和训练轨迹


这种 “等损失、不同梯度” 的现象为算法设计带来了新的可能。部分优化方法尝试在等价轨道中主动寻找梯度更优的点,以加快收敛或改善最终解的性质(图 5 左);另一些方法则追求对称不变性,让优化结果对初始点的等价变换不敏感(图 5 右)。


图 5 两类应用对称性的优化算法


前者将对称性视为可用的自由度,后者将其作为应被约简的冗余。无论哪种思路,都表明对称性是理解和改进优化算法的重要线索。


从对称到守恒:学*动力学的新理解


连续对称性往往对应着守恒量(conserved quantities)—— 类似物理中的诺特定理。


在梯度流(gradient flow)中,对称性使得某些量在训练过程中保持恒定。例如,线性网络中相邻层的 Gram 矩阵差、ReLU 网络中输入输出权重的范数差。


这些守恒量揭示了训练过程的稳定性,也帮助解释优化的隐式偏置(implicit bias):


不同的初始化对应不同的守恒量值,进而影响最终的收敛点和泛化性能。也就是说,参数空间的对称结构决定了学*轨迹与结果的统计分布。


图 6 对称性与守恒量的关系。(左)对称方向与守恒量的梯度 ∇Q 都与 ∇L 正交,位于损失水平集的切平面上。(右)守恒量在训练中保持不变,从而为梯度流轨迹与最终极小值提供了参数化坐标。


跨空间的联系:参数、表征与数据中的对称


参数空间中的对称性并非孤立存在,而是与数据空间和内部表征空间的对称紧密相连。


当数据分布本身具有某种对称性(如旋转、平移或翻转)时,训练得到的模型参数往往会继承并反映这些结构。


此外,在 “权重空间学*”(Weight Space Learning)等新兴方向中,神经网络参数本身被作为输入数据。此时,对称性成为新的 “数据结构”,支持了等变元网络(equivariant meta-network)在模型性质分析和生成中的广泛应用。


图 7 对称不变与对称等变的元网络:等变元网络可直接在模型权重上进行学*,被用于在预测模型的泛化能力,学*优化中的权重更新,以及生成满足特定特征的新模型等任务。


展望:一个正在形成的研究领域


参数空间中的对称性广泛存在,为深度学*提供了一种新的数学语言,将模型的复杂行为与群论和几何中的成熟工具联系起来。


这一视角正在影响多个领域的实践:从加速优化与改善泛化,到模型融合、量化和采样,再到新兴的权重空间学*与生成模型设计。对称性正在从理论概念转化为可操作的算法原则。


当然,对称性并非理解神经网络的唯一路径。但正如物理、神经科学等学科为机器学*带来了新方法一样,数学化的视角让我们得以在这个完全人工的系统中寻找结构与规律,并由此开拓新的学*理论与算法思路。

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

为您推荐

Gemini2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品

GeoSense团队 投稿量子位 | 公众号 QbitAI多模态大模型几何解题哪家强?首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了!GeoSense,系统评测多模态

2026-01-08 11:40

阳马居二,鳖臑居一,不易之率也

“立体几何”四个字能把人瞬间拉回被圆锥体积支配的晚自习,可谁能想到,1700年前的古人早把答案写进土方账本,连名字都带着土腥味——堑堵、阳马、鳖臑,听着像菜市场摊位,其实是刘

2026-01-08 11:40

从一到无穷数学展:克莱因船的远航

1.在丘成桐的故乡,世界第一次被重新折叠如果数学也有地理坐标,那么卡拉比–丘流形,一定是其中最深的一处折叠。1957 年,尤金·卡拉比提出一个几乎不近人情的猜想:在一个没有物质

2026-01-08 11:39

一条平行线,一座宇宙——欧几里得与他的《几何原本》

从一条直线说起今天,你在纸上随手画两条永不相交的平行线;明天,工程师用它设计跨海大桥;后天,天文学家靠它计算星系距离。所有这些看似寻常的操作,都绕不开公元前 3 世纪那位古希

2026-01-08 11:39

通过几何代理任务增强视觉语言模型中的空间感知和推理能力

本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大

2026-01-08 11:38

高中理科学习方法

鄙人是一位一本院校的学生,虽然有些可笑,在这个211遍地走985多如狗的时代一个普通一本院校的学生确实不算什么。但是,我觉得生活中我们大多都是普通人,我也是。所以,我想把我作为

2026-01-08 11:38