网站首页
手机版

研究人员打造“图表征状态空间”RNN,显著提升模型时空学习性能

更新时间:2025-05-20 06:00作者:佚名

李·南博(Li Nanbo)是英国爱丁堡大学(University of Edinburgh)的博士毕业生,也是沙特阿拉伯阿卜杜拉科学技术大学的博士后研究员,一直在研究世界模型,该模型可以根据事物及其背后的法律的状态来预测未来。这一突出的特征使李南博(Li Nanbo)着迷。

研究人员打造“图表征状态空间”RNN,显著提升模型时空学*性能

照片| Li Nanbo(来源:Li Nanbo)

李·南博(Li Nanbo)理解预测是根据“法律背后的法律”在时间上扩展事物的“空间状态”。从这个角度来看,时空建模确实是世界模型面临的核心技术挑战之一。特别是在复杂的“状态”描述(例如一般高维矢量表示)的情况下,研究其“时空定律”特别复杂。这与传统学科研究非常相似,只是每个学科都侧重于他们独特的“世界”。在AI或机器学*领域,人们更关心如何使模型有效地学*这些“时空法律”,而不是法律本身。这本质上是一个计算问题。但是,现有的一般体系结构,例如变压器和复发神经网络(RNN)具有计算局限性。变形金刚支持并行计算,但是由于其二次复杂性问题,很难扩展到无限序列。尽管RNN可以以恒定的内存扩展无限的序列,但是平行功能不足(例如训练过程中需要的串行计算),并且存在一个长距离遗忘的问题。最近观看的状态空间模型Mamba体系结构通过线性递归实现了变形金刚和RNN之间的权衡:它在时间/顺序轴上实现了有效的压缩,因此更适合“空间时间学*”。但是,由于缺乏对输入数据的空间轴的有效压缩和状态空间的全面利用,因此其时空学*潜力尚未完全释放。为此,Li Nanbo和他的团队提出了一项名为Short事实的新技术,该技术重建了Mamba或一般结构状态空间模型的状态空间,以解决此问题并将其构成图形表示。本文已被机器学*顶级会议ICLR2025接受。

(来源:arxiv)

换句话说,事实可以看作是“表征状态空间”的结构化状态空间模型,或者是“表征状态空间的图表”的RNN。该设计不仅显着提高了空间和时间学*的表现,而且还引入了处理图表输入和模型因果关系(因果图)的能力。为了保留MAMBA的平行计算特性,研究人员还提出了线性化的图状态机制。

(来源:arxiv)

对于相关论文的审阅者,“本文提出了一种构建,该体系结构可以柔性地处理无序或动态变化的输入,同时通过有效地压缩历史记录来捕获长期的依赖性,从而在基线模型上实现型号,从而实现型架构的挑战,从而在挑战方面实现了挑战,从而采用了挑战的挑战,以动态分配挑战的范围,以动态分配范围,以实现范围,以动态分配范围,以实现范围,并将其分配到实现范围,从而实现了范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,以实现范围,实现了范围的范围。建模。其设计是简单有效的,可以强大地处理输入序列,同时简化了高维数据的处理,并增强了适合实用应用程序的捕获能力。”另一位审阅者说:“本文在诸如多变量时间序列预测,时空图表预测和以对象的世界建模之类的任务中进行了广泛的实验,结果表明,许多指标中的事实始终超过或匹配了最先进的模型。该实验不仅在捕获了该方法方面的功能,还验证了该方法的差异,还验证了该方法的强大功能,该方法在捕获复杂的过程中的稳健性,该方法的范围是多种多样的,该模型的功能既广泛,又是绘制的复杂效果,该方法的范围是广泛的,该模型的范围是多种多样的,该模型的范围是多种多样的,该模型的功能既广泛,又符合了复杂的效果。现实世界。“作为一般时空模型体系结构,除了传统的时间预测应用程序(例如金融,能源,运输和医疗服务)外,动画生成还应在多媒体领域(例如视频)具有良好的前景。作为世界模型体系结构,李·南博(Li Nanbo)也期待看到其在其他学科中的研究中的应用,例如物理,化学,生物学和相关社会科学。如前所述,Li Nanbo对世界模式非常痴迷,事实是他在该领域探索的重要任务。李·南博(Li Nanbo)对时空建模的想法受到其导师“经常性神经网络之父”和阿卜杜拉国王科学技术大学的尤尔根·施密杜伯(JrgenSchmidhuber)教授提出的两种关键原则的影响:历史压缩和可预测性最小化。基于这两个原则,李·南博(Li Nanbo)比较了LSTM,Transformers和Mamba的利弊,并从事实中获得了灵感。这个阶段的关键是理论灵感和明确的方向。 2024年5月,Li Nanbo首先在通过实验重建“状态空间”后,在重建“状态空间”之后,首先观察到“ beta版本”事实的出色性能。它不仅匹配当时最强的基准模型,而且在某些实验中甚至超过了它。这一结果极大地增强了李南博的信心,使他确信自己的思想是正确的,其余的工作是将这些想法付诸实践并优化模型。模型迭代阶段是连续反思和改进的过程。从理论模型到实验实施,李·南博(Li Nanbo)反复修改了大约8个理论模型的版本,并且已经推翻了实验实现。汗水和咖啡因成为这次的主要主题,但是由于明确的方向,这种体验更是一个令人愉快的挑战。在此阶段,最大的困难是设计并行内存更新机制。尽管2024年5月底的Beta模型在时间序列预测中表现出很高的精度,但他希望在计算效率方面不要过多地妥协,并且时间复杂性必须与Mamba至少相同的数量级。这个目标驱使他和他的团队最终发展了现有的可线化事实,平衡了表现和效率。在这项研究中,Li Nanbo获得了爱与友谊。尽管这似乎与研究本身没有直接的因果关系。但是考虑到李·纳博(Li Nanbo)刚刚于2024年3月加入了施密德·休伯(Schmid Huber)教授的实验室,一切都是全新的3——新环境,新同事,新研究。

在短时间内,我们认识了志趣相投的新朋友和研究伙伴,很幸运地获得了爱情,为李·南伯(Li Nanbo)提供了实现事实研究的坚实保证。它说,赶上截止日期的过程就像是“皮肤”,这是非常痛苦的,但是每个人都匆忙在一起,能够在压力下互相开玩笑。这确实是一种安慰。除了继续深入探索世界模型的方向外,他还计划扩大当前事实模型,以根据事实对基础模型进行应用程序研究。

参考:

1.https://arxiv.org/pdf/2410.20922

操作/类型:他钦隆

为您推荐

ShenTech科创训练营圆满结营,沙特学员感叹 “深圳是硬件创业者梦寐以求的热土”

“大湾区可以说是全世界创业者的中心。”“相比较硅谷,深圳硬件创新创业的迭代速度快5-10倍,而成本只是其十分之一到五分之一。可以说,这个极具活力的供应链生态,是硬件创业者梦寐以求的热土。”“在深圳,产业集群‘雨林式’蓬勃生长。从材料及芯片、

2025-05-20 05:59

院你来电 | 集成电路科学与工程学院(示范性微电子学院)招生专业解码

学院网址:http://icse.uestc.edu.cn/办公地址:四川省成都市高新西区西源大道2006号四号科研楼A区424联系邮箱:icsejwglbgs@uestc.edu.cn咨询电话:028-61837868UESTC微电子科学

2025-05-20 05:58

阿卜杜拉国王科技大学校长:科技类大学需要平衡两个使命(阿卜杜拉国王科技大学申请博士)

作者|沈春蕾陈繁昌2001年担任美国加州大学洛杉矶分校自然科学学院院长,2006年担任美国国家科学基金会助理会长,2009年出任香港科技大学第三任校长,2018年出任阿卜杜拉国王科技大学校长。在我国,一所稍具规模的高校,教师、员工动辄上千人

2025-05-20 05:58

深圳市领导会见沙特阿卜杜拉国王科技大学客人,沙特阿卜杜拉国王科技大学有中国学生吗

3月17日,深圳市委常委、市委组织部部长程步一,市委常委、市政府党组成员郑红波会见沙特阿卜杜拉国王科技大学校长陈繁昌一行,就中沙高校合作、科技创新、产业合作等事项开展深入探讨与交流。双方表示,深圳与沙特阿卜杜拉国王科技大学在教育、科技、人才

2025-05-20 05:57

62位沙特学生来深感叹:这里一切皆有可能!(沙特教育)

当沙漠中的奇迹王国碰上都市炫彩科技城将擦出怎样的火花?1月18日62位来自奇迹王国沙特阿拉伯的学生们来到深圳开启了一场体验感十足的科技创业探索之旅在这次旅程中“Shenzhen Speed”是学生们口中的高频词汇他们不仅惊叹于深圳速度更用他

2025-05-20 05:56

阿卜杜拉国王科技大学开发结合太空、机载和地面方法的低成本“绿色”互联网

据Engineering News 5月4日报道,沙特阿拉伯的阿卜杜拉国王科技大学(KAUST)正在开发新型节能高速互联网系统,为数百万没有数字连接的南非人提供经济高效的高质量互联网接入。这项开创性的技术结合了天基网络和空中网络,目的是以可

2025-05-20 05:56