更新时间:2025-05-20 06:00作者:佚名
李·南博(Li Nanbo)是英国爱丁堡大学(University of Edinburgh)的博士毕业生,也是沙特阿拉伯阿卜杜拉科学技术大学的博士后研究员,一直在研究世界模型,该模型可以根据事物及其背后的法律的状态来预测未来。这一突出的特征使李南博(Li Nanbo)着迷。

照片| Li Nanbo(来源:Li Nanbo)
李·南博(Li Nanbo)理解预测是根据“法律背后的法律”在时间上扩展事物的“空间状态”。从这个角度来看,时空建模确实是世界模型面临的核心技术挑战之一。特别是在复杂的“状态”描述(例如一般高维矢量表示)的情况下,研究其“时空定律”特别复杂。这与传统学科研究非常相似,只是每个学科都侧重于他们独特的“世界”。在AI或机器学*领域,人们更关心如何使模型有效地学*这些“时空法律”,而不是法律本身。这本质上是一个计算问题。但是,现有的一般体系结构,例如变压器和复发神经网络(RNN)具有计算局限性。变形金刚支持并行计算,但是由于其二次复杂性问题,很难扩展到无限序列。尽管RNN可以以恒定的内存扩展无限的序列,但是平行功能不足(例如训练过程中需要的串行计算),并且存在一个长距离遗忘的问题。最近观看的状态空间模型Mamba体系结构通过线性递归实现了变形金刚和RNN之间的权衡:它在时间/顺序轴上实现了有效的压缩,因此更适合“空间时间学*”。但是,由于缺乏对输入数据的空间轴的有效压缩和状态空间的全面利用,因此其时空学*潜力尚未完全释放。为此,Li Nanbo和他的团队提出了一项名为Short事实的新技术,该技术重建了Mamba或一般结构状态空间模型的状态空间,以解决此问题并将其构成图形表示。本文已被机器学*顶级会议ICLR2025接受。
(来源:arxiv)
换句话说,事实可以看作是“表征状态空间”的结构化状态空间模型,或者是“表征状态空间的图表”的RNN。该设计不仅显着提高了空间和时间学*的表现,而且还引入了处理图表输入和模型因果关系(因果图)的能力。为了保留MAMBA的平行计算特性,研究人员还提出了线性化的图状态机制。
(来源:arxiv)
对于相关论文的审阅者,“本文提出了一种构建,该体系结构可以柔性地处理无序或动态变化的输入,同时通过有效地压缩历史记录来捕获长期的依赖性,从而在基线模型上实现型号,从而实现型架构的挑战,从而在挑战方面实现了挑战,从而采用了挑战的挑战,以动态分配挑战的范围,以动态分配范围,以实现范围,以动态分配范围,以实现范围,并将其分配到实现范围,从而实现了范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,实现了范围的范围。建模。其设计是简单有效的,可以强大地处理输入序列,同时简化了高维数据的处理,并增强了适合实用应用程序的捕获能力。”另一位审阅者说:“本文在诸如多变量时间序列预测,时空图表预测和以对象的世界建模之类的任务中进行了广泛的实验,结果表明,许多指标中的事实始终超过或匹配了最先进的模型。该实验不仅在捕获了该方法方面的功能,还验证了该方法的差异,还验证了该方法的强大功能,该方法在捕获复杂的过程中的稳健性,该方法的范围是多种多样的,该模型的功能既广泛,又是绘制的复杂效果,该方法的范围是广泛的,该模型的范围是多种多样的,该模型的范围是多种多样的,该模型的功能既广泛,又符合了复杂的效果。现实世界。“作为一般时空模型体系结构,除了传统的时间预测应用程序(例如金融,能源,运输和医疗服务)外,动画生成还应在多媒体领域(例如视频)具有良好的前景。作为世界模型体系结构,李·南博(Li Nanbo)也期待看到其在其他学科中的研究中的应用,例如物理,化学,生物学和相关社会科学。如前所述,Li Nanbo对世界模式非常痴迷,事实是他在该领域探索的重要任务。李·南博(Li Nanbo)对时空建模的想法受到其导师“经常性神经网络之父”和阿卜杜拉国王科学技术大学的尤尔根·施密杜伯(JrgenSchmidhuber)教授提出的两种关键原则的影响:历史压缩和可预测性最小化。基于这两个原则,李·南博(Li Nanbo)比较了LSTM,Transformers和Mamba的利弊,并从事实中获得了灵感。这个阶段的关键是理论灵感和明确的方向。 2024年5月,Li Nanbo首先在通过实验重建“状态空间”后,在重建“状态空间”之后,首先观察到“ beta版本”事实的出色性能。它不仅匹配当时最强的基准模型,而且在某些实验中甚至超过了它。这一结果极大地增强了李南博的信心,使他确信自己的思想是正确的,其余的工作是将这些想法付诸实践并优化模型。模型迭代阶段是连续反思和改进的过程。从理论模型到实验实施,李·南博(Li Nanbo)反复修改了大约8个理论模型的版本,并且已经推翻了实验实现。汗水和咖啡因成为这次的主要主题,但是由于明确的方向,这种体验更是一个令人愉快的挑战。在此阶段,最大的困难是设计并行内存更新机制。尽管2024年5月底的Beta模型在时间序列预测中表现出很高的精度,但他希望在计算效率方面不要过多地妥协,并且时间复杂性必须与Mamba至少相同的数量级。这个目标驱使他和他的团队最终发展了现有的可线化事实,平衡了表现和效率。在这项研究中,Li Nanbo获得了爱与友谊。尽管这似乎与研究本身没有直接的因果关系。但是考虑到李·纳博(Li Nanbo)刚刚于2024年3月加入了施密德·休伯(Schmid Huber)教授的实验室,一切都是全新的3——新环境,新同事,新研究。
在短时间内,我们认识了志趣相投的新朋友和研究伙伴,很幸运地获得了爱情,为李·南伯(Li Nanbo)提供了实现事实研究的坚实保证。它说,赶上截止日期的过程就像是“皮肤”,这是非常痛苦的,但是每个人都匆忙在一起,能够在压力下互相开玩笑。这确实是一种安慰。除了继续深入探索世界模型的方向外,他还计划扩大当前事实模型,以根据事实对基础模型进行应用程序研究。
参考:
1.https://arxiv.org/pdf/2410.20922
操作/类型:他钦隆