研究人员打造“图表征状态空间”RNN，显著提升模型时空学习性能

更新时间：2025-05-20 06:00作者：佚名

李·南博（Li Nanbo）是英国爱丁堡大学（University of Edinburgh）的博士毕业生，也是沙特阿拉伯阿卜杜拉科学技术大学的博士后研究员，一直在研究世界模型，该模型可以根据事物及其背后的法律的状态来预测未来。这一突出的特征使李南博（Li Nanbo）着迷。

研究人员打造“图表征状态空间”RNN，显著提升模型时空学*性能

照片| Li Nanbo（来源：Li Nanbo）

李·南博（Li Nanbo）理解预测是根据“法律背后的法律”在时间上扩展事物的“空间状态”。从这个角度来看，时空建模确实是世界模型面临的核心技术挑战之一。特别是在复杂的“状态”描述（例如一般高维矢量表示）的情况下，研究其“时空定律”特别复杂。这与传统学科研究非常相似，只是每个学科都侧重于他们独特的“世界”。在AI或机器学*领域，人们更关心如何使模型有效地学*这些“时空法律”，而不是法律本身。这本质上是一个计算问题。但是，现有的一般体系结构，例如变压器和复发神经网络（RNN）具有计算局限性。变形金刚支持并行计算，但是由于其二次复杂性问题，很难扩展到无限序列。尽管RNN可以以恒定的内存扩展无限的序列，但是平行功能不足（例如训练过程中需要的串行计算），并且存在一个长距离遗忘的问题。最近观看的状态空间模型Mamba体系结构通过线性递归实现了变形金刚和RNN之间的权衡：它在时间/顺序轴上实现了有效的压缩，因此更适合“空间时间学*”。但是，由于缺乏对输入数据的空间轴的有效压缩和状态空间的全面利用，因此其时空学*潜力尚未完全释放。为此，Li Nanbo和他的团队提出了一项名为Short事实的新技术，该技术重建了Mamba或一般结构状态空间模型的状态空间，以解决此问题并将其构成图形表示。本文已被机器学*顶级会议ICLR2025接受。

（来源：arxiv）

换句话说，事实可以看作是“表征状态空间”的结构化状态空间模型，或者是“表征状态空间的图表”的RNN。该设计不仅显着提高了空间和时间学*的表现，而且还引入了处理图表输入和模型因果关系（因果图）的能力。为了保留MAMBA的平行计算特性，研究人员还提出了线性化的图状态机制。

（来源：arxiv）

对于相关论文的审阅者，“本文提出了一种构建，该体系结构可以柔性地处理无序或动态变化的输入，同时通过有效地压缩历史记录来捕获长期的依赖性，从而在基线模型上实现型号，从而实现型架构的挑战，从而在挑战方面实现了挑战，从而采用了挑战的挑战，以动态分配挑战的范围，以动态分配范围，以实现范围，以动态分配范围，以实现范围，并将其分配到实现范围，从而实现了范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，以实现范围，实现了范围的范围。建模。其设计是简单有效的，可以强大地处理输入序列，同时简化了高维数据的处理，并增强了适合实用应用程序的捕获能力。”另一位审阅者说：“本文在诸如多变量时间序列预测，时空图表预测和以对象的世界建模之类的任务中进行了广泛的实验，结果表明，许多指标中的事实始终超过或匹配了最先进的模型。该实验不仅在捕获了该方法方面的功能，还验证了该方法的差异，还验证了该方法的强大功能，该方法在捕获复杂的过程中的稳健性，该方法的范围是多种多样的，该模型的功能既广泛，又是绘制的复杂效果，该方法的范围是广泛的，该模型的范围是多种多样的，该模型的范围是多种多样的，该模型的功能既广泛，又符合了复杂的效果。现实世界。“作为一般时空模型体系结构，除了传统的时间预测应用程序（例如金融，能源，运输和医疗服务）外，动画生成还应在多媒体领域（例如视频）具有良好的前景。作为世界模型体系结构，李·南博（Li Nanbo）也期待看到其在其他学科中的研究中的应用，例如物理，化学，生物学和相关社会科学。如前所述，Li Nanbo对世界模式非常痴迷，事实是他在该领域探索的重要任务。李·南博（Li Nanbo）对时空建模的想法受到其导师“经常性神经网络之父”和阿卜杜拉国王科学技术大学的尤尔根·施密杜伯（JrgenSchmidhuber）教授提出的两种关键原则的影响：历史压缩和可预测性最小化。基于这两个原则，李·南博（Li Nanbo）比较了LSTM，Transformers和Mamba的利弊，并从事实中获得了灵感。这个阶段的关键是理论灵感和明确的方向。 2024年5月，Li Nanbo首先在通过实验重建“状态空间”后，在重建“状态空间”之后，首先观察到“ beta版本”事实的出色性能。它不仅匹配当时最强的基准模型，而且在某些实验中甚至超过了它。这一结果极大地增强了李南博的信心，使他确信自己的思想是正确的，其余的工作是将这些想法付诸实践并优化模型。模型迭代阶段是连续反思和改进的过程。从理论模型到实验实施，李·南博（Li Nanbo）反复修改了大约8个理论模型的版本，并且已经推翻了实验实现。汗水和咖啡因成为这次的主要主题，但是由于明确的方向，这种体验更是一个令人愉快的挑战。在此阶段，最大的困难是设计并行内存更新机制。尽管2024年5月底的Beta模型在时间序列预测中表现出很高的精度，但他希望在计算效率方面不要过多地妥协，并且时间复杂性必须与Mamba至少相同的数量级。这个目标驱使他和他的团队最终发展了现有的可线化事实，平衡了表现和效率。在这项研究中，Li Nanbo获得了爱与友谊。尽管这似乎与研究本身没有直接的因果关系。但是考虑到李·纳博（Li Nanbo）刚刚于2024年3月加入了施密德·休伯（Schmid Huber）教授的实验室，一切都是全新的3——新环境，新同事，新研究。

在短时间内，我们认识了志趣相投的新朋友和研究伙伴，很幸运地获得了爱情，为李·南伯（Li Nanbo）提供了实现事实研究的坚实保证。它说，赶上截止日期的过程就像是“皮肤”，这是非常痛苦的，但是每个人都匆忙在一起，能够在压力下互相开玩笑。这确实是一种安慰。除了继续深入探索世界模型的方向外，他还计划扩大当前事实模型，以根据事实对基础模型进行应用程序研究。

参考：

1.https://arxiv.org/pdf/2410.20922

操作/类型：他钦隆

上一篇：美国14MAY18XXXXXL的旅游景点有哪些？

下一篇：ShenTech科创训练营圆满结营，沙特学员感叹 “深圳是硬件创业者梦寐以求的热土”

美国留学