更新时间:2025-05-19 01:01作者:佚名
来自斯坦福大学和美国其他机构的研究团队最近宣布,基于基本模型,相对成熟的推理模型仅以几十美元开发。尽管它的整体性能与开放人工智能研究中心(OpenAI)和中国深入搜索公司DeepSeek-R1开发的O1相比,但这种尝试意味着公司可以开发以低成本适合自己的AI应用程序,并且预计AI包容性可以增强。同时,它应用的“测试时间扩展”技术可能代表了更可持续的AI RD路径。
以低成本进行高级推理

斯坦福大学和华盛顿大学的研究团队最近宣布了一种名为S1的模型的开发,该模型可与测试中的O1和DeepSeek-R1相媲美,以衡量数学和编码功能。研究小组说,计算培训租金等计算资源的成本仅为几十美元。
S1的核心创新在于采用“知识蒸馏”技术和“预算强制性”方法。 “知识蒸馏”就像进一步净化别人酿造的葡萄酒一样。该模型的培训数据是一个小数据集,只有1,000个样本从Google的双子座思考实验模型中“蒸馏”。
“预算力”使用新的AI模型培训方法——“测试扩展”的实施。 “测试期间的扩展”也称为“深思熟虑”。核心是调整模型测试阶段中计算资源的分配,以使模型对问题更深入地思考并提高其推理能力和准确性。
“预算强制性”通过强迫模型的思维过程尽早结束或扩展模型,从而影响模型的推理深度和最终答案。 S1微调的Alibaba Cloud的Tongyi Qianwen开源模型通过“预算强制性”控制了培训模型计算量,并在仅26分钟的培训中使用16 NVIDIA H100 GPU实现了目标。
加利福尼亚大学的研究团队伯克利最近开发了一种流线型的AI模型Tinyzero,该模型在倒计时和乘法任务中复制了DeepSeek-R1零的性能。通过加强学*,该模型实现了一些具有30亿个模型参数的大型语言模型的自我思考验证和搜索功能。该团队说,项目培训的成本不到30美元。
“第二创建”增强了人工智能包容性
Tsinghua University计算机科学系长期副教授Liu Zhiyuan在接受记者的采访时说,一些海外研究团队使用高性能的推理模型来构建DeepSeek-R1和O1,例如构建和筛选高质量的长时间思维链数据集,然后用这些数据集来迅速获得高度的计算机,并以较低的数据为单位,并将其换成高度的效果。
相关专家认为,这是AI研发和开发的有用尝试,并且以“次要创造”方式构建模型可以增强人工智能的包容性。但是值得注意的是:
首先,所谓的“数十美元的低成本”不包括在开发大型基本型号的高成本中。这就像建造一所房子一样,这仅计入最终装饰的钱,但不算购买土地或奠基的钱。 AI智囊团“快速思考和缓慢思考研究所”的主任天冯对记者说,数十美元的成本仅是最后一个链接的计算功率成本,基本模型的预培训成本以及数据获取和处理成本未计算。
其次,“次要创作”构建的模型的总体性能仍然与成熟的大型模型无与伦比。 TinyZero仅在特定任务(例如简单的数学任务,编程和数学益智游戏)中表现良好,但不能应用于更复杂和多样化的任务方案。 S1模型只能通过精心选择的培训数据在特定的测试集上超越O1预览的早期版本,并且远远超过了O1官方版本或DeepSeek-R1。
最后,要开发具有更好性能的大型模型,仍然需要加强学*技术。刘·齐尤恩(Liu Zhiyuan)说,就促进大规模模型能力的界限而言,“知识蒸馏”技术并不是很有意义,并且将来仍然需要大规模的加强学*技术来持续刺激大型模型在思维,反射,探索等方面的能力
AI模型将来如何发展
在2025年的消费电子节目中,来自美国的NVIDIA高管概述了AI的演变的路线图:将智能水平作为垂直轴和计算量作为水平轴,该水平轴是“规模定律”,测量了AI模型从“预先培训扩展”到“ trains Traintraining”扩展的扩张,然后进行了测试。
“预训练的扩张”可以称为“可以大力实现的奇迹”。培训数据越多,模型量表越大,并且它投资的计算能力越多,最终获得AI模型的能力就越强。目标是建立一个以早期GPT模型为代表的通用语言模型。 “训练后扩展”涉及诸如增强学*和人类反馈之类的技术,这是预训练模型的“进化”,以优化其在特定领域的任务绩效。
随着“训练前扩张”和“训练后扩张”的边际益处逐渐减少,“测试时间扩张”技术正在出现。天冯说,“测试时间扩展”的核心是将焦点从训练阶段转移到推理阶段,并通过动态控制推理过程中的计算量(例如思考步长和迭代时间)来优化结果。这种方法不仅减少了对预训练数据的依赖,而且还显着提高了模型潜力。
这三个在资源分配和应用程序方案方面具有自己的优势。预培训就像让AI模型在学校学*基础知识一样,而培训就像让模型掌握特定的工作技能,例如医学和法律专业领域。 “测试扩展”使模型更强的推理能力。
在AI模型的迭代中,也存在类似于摩尔定律的现象,即能力密度随着时间的推移而成倍增加。 Liu Zhiyuan说,自2023年以来,大型模型的能力密度大约每100天翻了一番,也就是说,每100天,只有一半的计算能力和参数才能实现。将来,我们应该继续促进计算系统的智能,不断追求更高的容量密度,并实现成本较低的大型模型的有效开发。
(新华社,北京,2月23日,记者彭齐安)
《光明日报》(2025年2月24日,第12版)
资料来源:guangming.com-《光明日报》