更新时间:2025-05-17 02:43作者:佚名
Alexnet于2012年首次发行,引发了人工智能和计算机视觉领域的一场革命。

杰弗里·辛顿(Geoffrey Hinton)和他的研究生Alex Krizhevsky和Ilya Sutskever在2012年发行了开创性的Alexnet,这是图像识别的神经网络。
计算机历史博物馆已与Google合作发布了Alexnet的源代码。 Alexnet是一个神经网络,该神经网络于2012年开放了流行的AI方法。此源代码可在CHM的GitHub页面上的开源中获得。
什么是Alexnet?
Alexnet是一个识别照片内容的人工神经网络。它是由当时的多伦多大学研究生Alex Krizhevsky和Ilya Sutskever及其导师Geoffrey Hinton开发的。
深度学*的起源
欣顿被认为是深度学*的父亲之一,一种人工智能,使用神经网络和当今主流人工智能的基础。在1950年代后期,康奈尔大学研究员弗兰克·罗森布拉特(Frank Rosenblatt)首先建立了一个简单的三层神经网络,只有一层适应性重量,但后来发现它们有局限性。 [该解释器详细介绍了神经网络的工作原理。 ]特别是,研究人员需要具有多层自适应权重的网络,但是没有很好的方法来训练它们。到1970年代初,人工智能研究人员已广泛拒绝神经网络。
弗兰克·罗森布拉特(Frank Rosenblatt)(左,与查尔斯·惠特曼(Charles Whiteman)的照片)在1957年开发了第一个人工神经网络,即Perceptron。
在1980年代,加利福尼亚大学的认知科学家以人工智能界之外的“连接主义”的新名称复兴了神经网络研究。 1978年,欣顿(Hinton)成为爱丁堡大学的博士后研究员,在那里他与戴维·鲁梅尔哈特(David Rumelhart)和罗纳德·威廉姆斯(Ronald Williams)合作。这三个重新发现了用于训练神经网络的返回算法,并于1986年发表了两篇论文,证明该算法可以使神经网络能够学*多层功能以完成语言和视觉任务。反向传播是当今深度学*的基础,它利用网络当前输出与预期输出之间的差异来调整从后退到输入层的每一层的重量。
1987年,欣顿加入了多伦多大学。 Hinton及其研究生的工作远离传统的AI中心,使多伦多成为了几十年来的深度学*研究中心。欣顿的博士后学生之一是Yann Lecun,他现在是Meta的首席科学家。莱肯在多伦多的工作中表明,当将反向传播用于“卷积”神经网络时,他们在识别手写数字方面变得非常出色。
Imagenet和GPU
尽管有这些进展,但神经网络并不能总是超过其他类型的机器学*算法。他们需要除人工智能以外的两个发展来铺平道路。首先是大量培训数据的出现,可以通过网络获得。第二个是足够的计算能力来执行此训练,即3D图形芯片(称为GPU)。到2012年,Alexnet的时间已经成熟。
Li Feifei的Imagenet图像数据集于2009年完成,是训练Alexnet的关键。在图片中,Li Feifei [右]在计算机历史博物馆与汤姆·卡利尔(Tom Kalil)进行了交谈。
训练Alexnet所需的数据来自Imagenet,这是一个由斯坦福大学教授Feifei Li发起和领导的项目。自2006年以来,Li Feifei偏离了传统观点,并设想了一个涵盖所有英文名词的图像数据集。她和她的研究生开始收集在互联网上找到的图像,并使用WordNet提供的分类学(单词及其关系数据库)对它们进行了分类。鉴于任务的艰巨性质,Li Feifei和她的合作者最终使用亚马逊的机械Turk平台将图像标记为演出工人的任务。
ImageNet于2009年完成,比任何以前的图像数据集大几个数量级。 Li Feifei希望其出现将导致新的突破,并于2010年发起竞争,以鼓励研究团队改善其图像识别算法。但是在接下来的两年中,最好的系统只取得了略有进展。
神经网络成功的第二个必要条件是经济地获取大量计算。神经网络训练涉及大量重复的矩阵乘法,最好并联进行,并且GPU是为此而设计的。 NVIDIA由首席执行官Jensen Huang创立,是第一个使GPU在21世纪更具通用性和可编程性的人,可用于3D图形以外的其他应用程序,尤其是2007年发布的CUDA编程系统。
Imagenet和Cuda就像神经网络一样,这两者都是相当利基的开发结果,他们正在等待正确的环境发光。 2012年,Alexnet首次将这些元素(深度神经网络,大数据集和GPU)结合在一起,并取得了突破性的结果。这三个要素是相互依存的。
如何创建Alexnet
到2000年代后期,多伦多大学欣顿的研究生开始使用GPU来训练神经网络以进行图像和语音识别。他们的第一个成功来自语音识别,但图像识别的成功表明,深度学*可能是AI的普遍解决方案。一位学生Ilya Sutskever认为,神经网络的性能将随着可用数据的数量而扩展,并且Imagenet的出现提供了这个机会。
2011年,萨特克(Sutskever)说服了研究生Alex Krizhevsky(Alex Krizhevsky渴望使用GPU的全部表现)为Imagenet培训卷积神经网络,Hinton曾担任首席研究员。
Alexnet使用NVIDIA GPU运行在Imagenet数据集上训练的CUDA代码。 NVIDIA首席执行官Jen Hsung Wong因其对计算机图形芯片和AI的贡献而被任命为2024 CHM研究员。
Krizhevsky使用NVIDIA GPU(称为CUDA-CONVNET)为卷积神经网络编写了CUDA代码,以训练较小的CIFAR-10图像数据集。他扩展了CUDA-CONVNET,以支持多个GPU和其他功能,并在Imagenet上重新训练。该培训是在克里兹赫夫斯基(Krizhevsky)父母的卧室的计算机上用两张NVIDIA卡进行的。明年,他一直在调整网络的参数并进行重新训练,直到其表现比竞争对手更好。该网络最终被命名为Alexnet,以Krizhevsky为名。杰夫·辛顿(Geoff Hinton)总结了这样的Alexnet项目:“ Ilya认为我们应该这样做,Alex使它起作用,我赢得了诺贝尔奖。”
Krizhevsky,Sutskever和Hinton撰写了一篇有关Alexnet的论文,该论文于2012年秋季发表,并于10月在意大利佛罗伦萨举行的计算机视觉会议上于10月发表。高级计算机视觉研究人员不相信这一点,但是参加会议的莱肯宣布这是人工智能的转折点。他是对的。在Alexnet之前,几乎没有使用神经网络的领先的计算机视觉纸。之后,几乎所有论文都使用神经网络。
Alexnet只是开始。在接下来的十年中,神经网络将继续促进综合可信的人类声音,击败Go Champions并创造艺术品,最后由Sutskever共同创立的公司Openai于2022年11月发行了Chatgpt。
发布Alexnet源代码
在2020年,我联系了Krizhevsky,询问是否允许它发布Alexnet源代码,因为它在历史上很重要。他向我介绍了当时在Google工作的Hinton。 Google收购了由Hinton,Sutskever和Krizhevsky共同拥有的公司Dnnresearch,因此拥有Alexnet。 Hinton通过将CHM连接到Google的合适团队,从而推动了事情。 CHM与Google团队合作了五年来谈判发布。该团队还帮助我们确定了多年来将发布——的Alexnet源代码的特定版本,Alexnet有许多版本。 Github上还有其他代码存储库,称为Alexnet,但其中许多是根据著名论文而不是原始代码来重新创建的。
CHM很荣幸展示了2012年Alexnet的源代码,该代码彻底改变了人工智能领域。您可以在CHM的GitHub页面上访问源代码。