大模型总失忆？谷歌嵌套学习横空出世，堪称AttentionV2

更新时间：作者：小小条

司的就是国际这条线；马上追踪热点

秘闻背后的事；我给你说透

大模型总失忆？谷歌嵌套学*横空出世，堪称AttentionV2

欢迎各位看官收看今天的【司马秘事】

文：司马秘事

编辑：司马秘事

你有没有过跟AI聊天气到想摔手机的经历？刚跟它掰扯清楚一个概念，转头问相关问题，它就跟没听过一样，一脸茫然。

这些大模型上知天文下知地理，却连“记新东西”这种基础操作都搞不定，真的让人又爱又恨。

最近谷歌一篇新论文直接引爆了AI圈，被圈内人偷偷称为“AttentionIsAllYouNeed”V2。

这篇叫《嵌套学*深度学*架构的幻象》的研究，终于对准了大模型的“数字失忆症”，给出了一套全新解法。

大模型的失忆难题咋来的

大模型这种“前脚教后脚忘”的毛病，可不是偶然的Bug，这是所有大型语言模型的“先天疾病”，业内叫它数字失忆症。

简单说，就是大模型没法形成新的长期记忆，只能靠两个极端撑着。

一个是预训练时就刻在骨子里的老知识，另一个是对话时临时用的缓存。

聊完天缓存一清，新学的东西就没了，想让它记住，要么花大价钱微调，要么就得接受旧知识被覆盖。

本来以为大模型只是参数不够多、层数不够深，后来发现根本不是这么回事，过去十年，整个行业都在死磕“规模即智能”。

大家一个劲堆Transformer层，追逐万亿参数，觉得只要模型够大，记忆能力自然会“冒出来”。

但实际情况很打脸，模型层数加了不少，计算深度却没跟上，有些参数就算堆得再多，能力提升也有限。

持续学*、举一反三这些本事，靠堆参数根本练不出来，而且训练过程中，还容易陷入一个不算最优的结果里，想进步都难。

这种只靠堆料的思路，现在看来真的走进了死胡同。

嵌套学*找对了突破方向

谷歌这次的研究，最牛的地方就是没在“堆料”上死磕，反而盯上了被所有人忽视的“优化器”。

咱们平时用的Adam、随机梯度下降这些优化器，一直被当成训练模型的“导航仪”，只管指引参数往损失下降的方向走。

可这篇论文偏偏证明了，这些优化器本身就是个“记忆大师”。

它们不只会看当下的梯度数据，还会悄悄储存一路走来的梯度变化模式。

你以为自己只是在训练一个模型，其实已经在同时运行多个不同时间尺度的小型学*程序，这个发现直接撬开了新范式的大门。

从底层的优化器，到中间的注意力机制，再到整个神经网络，根本不是各自为政的零件。

而是在不同速度、不同层级上嵌套运行的“学*-记忆”模块。

咱们一直引以为傲的深度学*体系，不过是这个立体范式的平面投影。

基于这个核心发现，研究提出了“嵌套学*”的新框架。

它认为智能学*需要两个关键维度，一个是咱们已经挖了十年的“深度”，也就是模型的层数和容量。

另一个是之前完全被忽略的“频率”，也就是模型内部组件的更新节奏，这思路其实很像人脑的工作模式。

咱们的大脑里有各种“生物时钟”，有的快速反应处理眼前的对话，有的慢慢巩固把经验变成长期记忆。

而大模型就缺了中间这些“记忆通道”，才会患上类似“顺行性失忆症”的毛病，只能记住很久以前的旧知识和刚发生的小事。

HOPE架构给AI装“记忆光谱”

光有理论不够，谷歌还基于嵌套学*做了个叫HOPE的新架构。

这个架构的核心是一个连续的记忆系统，不是一两个孤立的记忆模块，而是一系列像光谱一样排列的MLP模块。

每个模块都有自己固定的更新频率，信息进来后会自动分到对应的模块里。

高频模块像“工作记忆”，专门记对话里的即时细节，中频模块像“近期记忆”。

提炼一段时间内的规律，低频模块像“长期记忆”，慢慢沉淀重要知识。

这个过程简直就是模仿了人脑里信息从海马体转移到新皮层的记忆巩固过程，光听这个设计就觉得很靠谱。

初步实验里，HOPE在语言建模和常识推理任务上表现都不错，更关键的是，它真的有了解决持续学*问题的潜力。

新知识不用再要么被遗忘，要么覆盖旧知识，而是能在“记忆光谱”上找到自己的位置，慢慢被消化吸收。

对比之前的RAG技术、微调这些方式，HOPE不用依赖外部数据库，也不用花天价成本，确实让人眼前一亮。

这波突破能改变啥

可能有人会问，嵌套学*能马上取代Transformer吗？大概率不会。

但它的价值根本不在于取代谁，而在于提供了一套全新的思考框架。

过去大家都在琢磨怎么发明更复杂的“神经元积木”，现在谷歌告诉我们，给AI设计一套能激发潜能的系统，可能更重要。

这也是它被称为“AttentionV2”的原因，就像2017年注意力机制统一了序列建模的视野。

嵌套学*正在给AI学*过程构建一个可解释的模型。

现在业内已经有不少团队在跟进类似研究，Meta的持续学*尝试、OpenAI的记忆模块探索，都说明“记忆优化”已经成了新热点。

未来的AI可能不再是训练完成就定型的“知识琥珀”，而是能持续学*、终身成长的智能系统。

当然，这还是很前沿的探索，关于AI记忆和学*本质的思考才刚刚开始。

但不可否认的是，谷歌这波操作确实给行业指了条新路子。

以后咱们跟AI聊天，可能真的不用反复解释同一个问题，它会像人一样慢慢记住你的偏好、你的需求。

如此看来，AI的下一次突破，或许真的不在于参数多寡，而在于是否能真正拥有一套高效的记忆系统。

咱们不妨期待一下，告别“数字失忆症”的AI，未来能带来多少惊喜。

世界从不平静，司马为您解析，今天到此为止，下期我们再见！

上一篇：免费高中留学在美国不同的高中就读美国需要多少费用？

下一篇：快速崛起的栖霞教育：有特色，更有质量

为您推荐

快速崛起的栖霞教育：有特色，更有质量

这五年，栖霞教育成为一个现象。在栖霞教育人心中，一直有一张栖霞教育版图，狭长的300多平方公里区域，跨越城乡。如何推进各级各类学校特色发展、实现高层次优质均衡？栖霞教育，智慧

2026-01-05 17:47

栖霞教育：一座山万棵树片片叶儿红

这五年，栖霞教育成为一个现象。在栖霞教育人心中，一直有一张栖霞教育版图，狭长的300多平方公里区域，跨越城乡。如何推进各级各类学校特色发展、实现高层次优质均衡?栖霞教育，智慧

2026-01-05 17:46

预告｜南京市栖霞中学2018中考招生咨询会本周日举行

学校简介南京市栖霞中学始建于1923年，校址位于金陵东郊栖霞山麓，时为江苏省立栖霞乡村师范学校，校长是我国著名乡村教育家、陶行知思想积极践行者黄质夫先生。1956年栖霞乡师

2026-01-05 17:46

“胡一菲”娄艺潇为何不红了？看她干过的那些事，就不奇怪了

在《爱情公寓》中扮演女一号“胡一菲”一炮而红的女星娄艺潇，不知从何时开始，从艺人沦落为了带货主播。然而，在直播间推销一款黄金饰品时，却遭遇大型翻车。据娄艺潇介绍，这款中银

2026-01-05 17:45

“因为80块钱，我们分手了。”|你听过最奇葩的分手理由是什么？

你听过最奇葩的分手理由是什么？我发现比起谈恋爱，分手更像个技术活儿。如何得体优雅的分手，是成年人必修的恋爱课题。很多人往往是在分手的那一刻，才恍然发现并不了解对方

2026-01-05 17:45

美国留学

大模型总失忆？谷歌嵌套学习横空出世，堪称AttentionV2

大模型的失忆难题咋来的

嵌套学*找对了突破方向

HOPE架构给AI装“记忆光谱”

这波突破能改变啥

为您推荐

快速崛起的栖霞教育：有特色，更有质量

南京高中最新榜单公布！

栖霞教育：一座山万棵树片片叶儿红

预告｜南京市栖霞中学2018中考招生咨询会本周日举行

“胡一菲”娄艺潇为何不红了？看她干过的那些事，就不奇怪了

“因为80块钱，我们分手了。”|你听过最奇葩的分手理由是什么？

美国留学

大模型总失忆？谷歌嵌套学习横空出世，堪称AttentionV2

大模型的失忆难题咋来的

嵌套学*找对了突破方向

HOPE架构给AI装“记忆光谱”

这波突破能改变啥

为您推荐

快速崛起的栖霞教育：有特色，更有质量

南京高中最新榜单公布！

栖霞教育：一座山万棵树片片叶儿红

预告｜南京市栖霞中学2018中考招生咨询会本周日举行

“胡一菲”娄艺潇为何不红了？看她干过的那些事，就不奇怪了

“因为80块钱，我们分手了。”|你听过最奇葩的分手理由是什么？

最新文章