参数空间对称性：深度学习理论的统一几何框架

更新时间：作者：小小条

参数空间对称性：深度学*理论的统一几何框架

过去十年，深度学*模型的规模从上百万参数的卷积网络扩展到上千亿参数的大语言模型，性能突飞猛进。然而，我们对这些模型为何有效仍缺乏系统性的理解。一个关键但常被忽视的原因在于：在神经网络中，存在大量 “不同却等价” 的参数配置 —— 它们实现相同的模型函数，却让优化与泛化的分析变得格外复杂。

近日，加州大学圣地亚哥分校与美国东北大学的研究人员发布了一篇综述，系统梳理了这一现象背后的数学结构：神经网络参数空间中的对称性（parameter space symmetry）。这篇长达三十页的论文揭示了对称性如何塑造损失地形、影响优化与训练动力学，并为理解深度学*提供了一个统一的几何视角。

论文链接：https://arxiv.org/abs/2506.13018作者主页：https://b-zhao.github.io/

什么是参数空间对称性？

在一个神经网络中，不同的参数组合可能产生完全相同的输出。最直观的例子是神经元置换：交换隐藏层中两个神经元及其对应的输入 / 输出权重，网络实现的函数不变。

图1 置换对称：交换隐藏层两个单元及其关联权重，函数保持不变

这类保持函数不变的参数变换，被称为参数空间对称性 (parameter space symmetry)。

数学上，它是一组使损失函数 L (θ) 保持不变的变换 g，即 L (g ⋅ θ) = L (θ)。这些变换构成一个群 (group)，并在参数空间中定义了等价轨道 (orbit)：同一轨道上的参数都表示同一个模型函数。这个视角为理解极小值的连通性、平坦性与优化动态提供了统一语言。

除了离散的置换对称外，几乎所有常见的神经网络架构都还具有连续对称性：

ReLU 网络与 BatchNorm / LayerNorm 等归一层具有正缩放对称；线性层和注意力机制具有一般线性（GL）对称；Softmax 函数具有平移对称；其他结构（如径向激活函数、RBF 网络）也呈现出旋转或尺度类对称。

图 2 （左）ReLU 的缩放对称：对输入权重与偏置按对角矩阵 g 缩放，同时将输出权重乘以 g 的逆矩阵，函数保持不变。（右）自注意力的一般线性对称：键 (WK) 与查询 (WQ) 的线性变换 g 可以互相抵消，输出结果不变。

更重要的是，复杂的现代架构，如 Transformer，其对称性是其各组件对称性的组合。例如，多头注意力机制同时具有每个头内部的广义线性对称性、头之间的排列对称性，以及与输出投影层相关的另一组线性对称性。

从平坦极小值到模式连通性：对称性如何塑造损失地形

对称性让优化空间既复杂又有规律。

连续对称性（如缩放）会将一个孤立的极小值点 “拉伸” 成一个连续、平坦的极小值流形。沿着这个流形移动，损失值保持不变。这意味着网络的许多平坦方向并非来自更好的泛化，而是由结构对称性决定的。因此，传统用平坦度衡量泛化能力的指标需要谨慎解读。

另外，实践中观察到的 “模式连通性”—— 即独立训练得到的模型往往能通过低损耗路径连接 —— 其背后也部分源于连续对称性。对称性天然地在参数空间中创造出连接功能等价参数的连续路径，从而解释了模型融合（model fusion）为何能有效。

图 3 连续对称性与平坦极小值：不同的参数 θ，g1 ⋅ θ，g2 ⋅ θ 具有相同的损失值，构成一条由对称变换生成的平坦轨迹。

离散对称性（如神经元置换）则会在参数空间的不同位置复制出大量功能完全相同的极小值 “副本”。这使损失地形更加复杂，其极小值的数量随网络宽度呈阶乘级增长。

从几何到算法：利用对称性的优化方法

在对称群的作用下，即使两组参数具有相同的损失值，它们的梯度方向和大小也可能不同（图 4 左）。这意味着，即使两组参数在函数意义上等价，它们的训练轨迹仍可能完全不同（图 4 右）。

图 4 相同的损失值可能对应着不同的梯度和训练轨迹

这种 “等损失、不同梯度” 的现象为算法设计带来了新的可能。部分优化方法尝试在等价轨道中主动寻找梯度更优的点，以加快收敛或改善最终解的性质（图 5 左）；另一些方法则追求对称不变性，让优化结果对初始点的等价变换不敏感（图 5 右）。

图 5 两类应用对称性的优化算法

前者将对称性视为可用的自由度，后者将其作为应被约简的冗余。无论哪种思路，都表明对称性是理解和改进优化算法的重要线索。

从对称到守恒：学*动力学的新理解

连续对称性往往对应着守恒量（conserved quantities）—— 类似物理中的诺特定理。

在梯度流（gradient flow）中，对称性使得某些量在训练过程中保持恒定。例如，线性网络中相邻层的 Gram 矩阵差、ReLU 网络中输入输出权重的范数差。

这些守恒量揭示了训练过程的稳定性，也帮助解释优化的隐式偏置（implicit bias）：

不同的初始化对应不同的守恒量值，进而影响最终的收敛点和泛化性能。也就是说，参数空间的对称结构决定了学*轨迹与结果的统计分布。

图 6 对称性与守恒量的关系。（左）对称方向与守恒量的梯度 ∇Q 都与 ∇L 正交，位于损失水平集的切平面上。（右）守恒量在训练中保持不变，从而为梯度流轨迹与最终极小值提供了参数化坐标。

跨空间的联系：参数、表征与数据中的对称

参数空间中的对称性并非孤立存在，而是与数据空间和内部表征空间的对称紧密相连。

当数据分布本身具有某种对称性（如旋转、平移或翻转）时，训练得到的模型参数往往会继承并反映这些结构。

此外，在 “权重空间学*”（Weight Space Learning）等新兴方向中，神经网络参数本身被作为输入数据。此时，对称性成为新的 “数据结构”，支持了等变元网络（equivariant meta-network）在模型性质分析和生成中的广泛应用。

图 7 对称不变与对称等变的元网络：等变元网络可直接在模型权重上进行学*，被用于在预测模型的泛化能力，学*优化中的权重更新，以及生成满足特定特征的新模型等任务。

展望：一个正在形成的研究领域

参数空间中的对称性广泛存在，为深度学*提供了一种新的数学语言，将模型的复杂行为与群论和几何中的成熟工具联系起来。

这一视角正在影响多个领域的实践：从加速优化与改善泛化，到模型融合、量化和采样，再到新兴的权重空间学*与生成模型设计。对称性正在从理论概念转化为可操作的算法原则。

当然，对称性并非理解神经网络的唯一路径。但正如物理、神经科学等学科为机器学*带来了新方法一样，数学化的视角让我们得以在这个完全人工的系统中寻找结构与规律，并由此开拓新的学*理论与算法思路。

上一篇：孟尝君相秦：权力太大也不是好事——一场权力与责任的深刻反思

下一篇：Gemini2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

美国留学