更新时间:2025-05-17 02:43作者:佚名
最近,Google和计算机历史博物馆(CHM)共同发布了Alexnet项目的源代码。目前,该项目的Python代码已在CHM的GitHub页面上作为开源软件向公众开放,使AI爱好者和研究人员能够了解计算开发历史上的这一关键成就。
Alexnet是一个卷积神经网络(CNN),被认为在2012年改变了AI领域的面孔,表明“深度学*”可以实现传统AI技术无法实现的许多功能。

github链接:https://github.com/computerhistory/alexnet-source-code
深度学*技术使用多层神经网络在没有明确编程的情况下从数据中学*,从而开辟了与依赖手动规则制定和功能制定的传统AI完全不同的实现路径。深度学*推动了医疗保健,科学研究和可及性工具的进步,但它还促进了诸如深伪造,自动监测以及广泛失业的可能性之类的发展。但是在2012年,这些负面后果只是当时人们的遥远科幻梦想。专家们惊讶地发现,计算机最终可以识别出与人类接近的精度识别图像内容。
作为AI开发的流域,Alexnet可以以前所未有的精度识别照片中的对象——。具体来说,它可以将图像正确分类为1,000个类别之一,例如“草莓”,“校车”,甚至“金色恢复”,并且误差率远低于以前的AI系统。
就像查看原始ENIAC计算机或Babbage差速器的电路设计一样,Alexnet的源代码将使未来的历史学家了解相对简单的实施如何启发AI技术来重塑整个世界。
Alexnet原始真实代码暴露
正如CHM在他的博客文章中介绍的那样,Alexnet源自多伦多大学研究生Alex Krizhevsky和Ilya Sutskever的工作,以及他的导师Geoffrey Hinton。该项目证明,深度学*技术的表现要优于传统的计算机视觉方法。
神经网络在质量远远超出任何以前的方法的照片中确定了对象,并最终赢得了2012年Imagenet竞赛。 Yann Lecun是一位高级计算机视觉专家,他在意大利佛罗伦萨的演讲中立即意识到其对AI领域的意义,据报道在演讲后站起来,称Alexnet为“计算机视觉历史上的明确转折点”。更具体地说,Alexnet的出现标志着定义现代AI的三种关键技术的融合。
计算机历史博物馆的软件历史学家Hansen Hsu与Google进行了五年的谈判,以发布历史悠久的Alexnet源代码。该过程始于2020年,当时HSU与Alexnet的共同开发者Alex Krizhevsky联系,希望获得代码发布授权。但是,由于Google已收购了该团队早在2013年就属于该公司的DNNResearch公司,因此相关的知识产权属于Google,并且第一次联系未能达成共识。
在克里兹赫夫斯基(Krizhevsky)向Google深度学*专家Geoffrey Hinton介绍HSU之后的转弯。作为当年研发团队的核心成员,Hinton主动与相关的Google部门协调博物馆,以建立正式的沟通渠道。在接下来的五年中,双方的团队不仅需要解决复杂的法律授权问题,而且还需要从许多迭代版本中准确地确定2012年原始代码——,这成为项目进度的关键困难。正如HSU强调的那样,尽管以网络上以“ Alexnet”命名的重构版本,但真正触发AI Revolution的原始实现从未公开,而GitHub上同名的许多代码库都是基于此著名论文的重新创建。
通过比较论文的详细信息和代码架构特征,双方最终确认了最初的版本,其中包含2012年Imagenet竞争的突破性结果。该版本被认为是历史上最有价值的技术遗产,因为它完全保留了原始的硬件适应方案和早期的神经网络设计范式。
此外,除了代码本身的价值外,Huggingface联合创始人Thomas Wolf还发现,代码中的评论也非常启发。
“也许真实的历史记录在Alexnet代码中每个实验配置文件末尾的日志注释中。”许多网民同意他。
它背后的技术创新
尽管Alexnet对AI的影响现在是传奇的,但了解其背后的技术创新仍然可以帮助解释为什么它代表了这一关键的里程碑。具体而言,这一突破不是一次技术革命的结果,而是几种先前艺术的优雅组合。
该项目结合了三个以前独立的组件:深神经网络,大量图像数据集和图形处理单元(GPU)。深度神经网络构成了Alexnet的核心体系结构,该核心建筑具有多个可以学*极其复杂的视觉特征的层。该网络以Krizhevsky的名字命名,以实施该系统并完成广泛的培训过程表示敬意。
与传统的AI系统不同,以前的AI项目要求程序员手动指定在图像中寻找哪些功能。相比之下,深网可以自动发现不同级别的抽象——的模式,从早期层的简单边缘和纹理到更深层的复杂对象部分。
但是应注意的是,Alexnet使用专门用于处理类似网格的数据(例如图像)的CNN体系结构,这与基于当今大语言模型(例如Chatgpt和Claude)的变压器模型不同。后者源自Google Research的2017年发明,Transformer擅长处理顺序数据,并通过所谓的“注意”机制来捕获文本和其他媒体中的长距离依赖性。
在培训数据方面,Alexnet使用了由斯坦福大学教授Feifei Li博士于2006年建立的数据库Imagenet。 Li Feifei收集了数百万个Internet图像,并将它们整理到一个名为WordNet的数据库中。亚马逊机械Turk平台项目的工作人员帮助标记了图像。
2020年拍摄的Imagenet数据库的屏幕截图
该项目需要强大的计算资源来处理此数据。为此,克里兹赫夫斯基(Krizhevsky)在他父母的卧室的计算机上安装了两张NVIDIA图形卡,并完成了培训过程。神经网络并行执行大量矩阵计算,图形芯片可以很好地处理这些任务。在Huang Renxun的领导下,NVIDIA于2007年发布的CUDA软件提供了其图形芯片可编程功能,从而在非绘画任务领域打开了图形卡的急速。
Imagenet和Nvidia的Cuda首先都是相对利基的技术成就,等待正确的环境以表现出其真实价值。 2012年,Alexnet首次将这些元素(深度神经网络,大数据集和GPU计算)结合在一起,并取得了突破性的结果。
Krizhevsky,Sutskever和Hinton的论文于2012年秋季发表,由Krizhevsky在意大利佛罗伦萨的一次计算机视觉会议上公开发表。经验丰富的计算机视觉研究人员对此表示怀疑,但是参加会议的Yann Lecun称这是AI领域的转折点。他的判断是正确的。在Alexnet之前,很少有计算机视觉论文使用神经网络,在该网络中,几乎所有论文都开始使用神经网络。
2012年发表的研究生论文已被引用超过172,000次
Alexnet的影响当然不限于计算机视觉。如今,深度学*神经网络正在为语音综合,游戏系统,语言模型和图像发生器提供支持。从负面的角度来看,他们还产生了大量的社会垃圾邮件,帮助中央议员监视人民,甚至篡改历史记录,这最终可能会导致严重的社会分歧。
核心开发人员现在在做什么?
经过13年的突破,Alexnet的核心开发人员将其专业知识应用于不同的方向,每个人都在以独特的方式为AI领域做出贡献。
在Alexnet的成功之后,Krizhevsky,Sutskever和Hinton成立了一家名为Dnnresearch的公司,该公司于2013年被Google收购。此后,团队成员开始了不同的开发路径。 Sutskever于2015年参加了OpenAI的成立,该公司于2022年发布了Chatgpt,最近推出了Safe Seartintelligence(SSI),并作为一家初创公司获得了10亿美元的资金。 Krizhevsky于2017年离开Google,研究Dessa的新深度学*技术。
欣顿(Hinton)因警告未来AI系统的潜在危险而引起争议,他于2023年从Google辞职,以便能够更加自由地讨论这一点。去年,Hinton和John J. Hopfield因在1980年代初在机器学*领域的开创性贡献而获得了2024年诺贝尔物理奖。一旦新闻发布,整个科学界就感到震惊。
关于谁应该成为亚历克斯(Alexnet)最大的荣誉,欣顿(Hinton)以他独特的幽默感向计算机历史博物馆介绍:“伊利亚(Ilya)认为我们应该尝试一下,亚历克斯(Alex)做到了,但我赢得了诺贝尔奖。”