来源:内容来自spectrum,谢谢。
AlexNet 于 2012 年首次发布,引发了人工智能和计算机视觉领域的一场革命。

杰弗里·辛顿(Geoffrey Hinton)[上图] 和他的研究生亚历克斯·克里热夫斯基(Alex Krizhevsky)和伊利亚·苏茨克弗(Ilya Sutskever)于 2012 年发布了具有开创性的 AlexNet,一种用于图像识别的神经网络。
计算机历史博物馆与Google合作,发布了AlexNet 的源代码。AlexNet 是一个神经网络,于 2012 年开启了当今流行的 AI 方法。该源代码可在CHM 的 GitHub 页面上以开源形式获取。
什么是 AlexNet?
AlexNet 是一个人工神经网络,用于识别照片内容。它由当时的多伦多大学研究生Alex Krizhevsky和Ilya Sutskever以及他们的导师Geoffrey Hinton于 2012 年开发。
深度学习的起源
辛顿被认为是深度学习 之父之一,深度学习是一种使用神经网络的人工智能,也是当今主流人工智能的基础。20 世纪 50 年代末,康奈尔大学研究员弗兰克·罗森布拉特首次构建了简单的三层神经网络,其中只有一层自适应权重,但后来发现它们存在局限性。[此解释器详细介绍了神经网络的工作原理。] 特别是,研究人员需要具有多层自适应权重的网络,但没有很好的方法来训练它们。到 20 世纪 70 年代初,神经网络已被人工智能研究人员广泛拒绝。

弗兰克·罗森布拉特(左,与查尔斯·怀特曼合影)于 1957 年开发了第一个人工神经网络,即感知器。
20 世纪 80 年代,加州大学圣地亚哥分校的认知科学家在人工智能社区之外以“联结主义”为新名称复兴了神经网络研究。1978 年,Hinton 在爱丁堡大学获得博士学位后,成为加州大学圣地亚哥分校的博士后研究员,在那里他与David Rumelhart和Ronald Williams合作。三人重新发现了用于训练神经网络的反向传播算法,并于 1986 年发表了两篇论文,证明该算法可以使神经网络学习多层特征,以完成语言和视觉任务。反向传播是当今深度学习的基础,它使用网络当前输出和期望输出之间的差异来调整每一层的权重,从输出层向后调整到输入层。
1987 年,Hinton 加入多伦多大学。远离传统人工智能中心,Hinton 及其研究生的工作使多伦多成为未来几十年深度学习研究中心。Hinton 的一位博士后学生是Yann LeCun ,他现在是Meta的首席科学家。在多伦多工作期间,LeCun 展示了当反向传播用于“卷积”神经网络时,它们在识别手写数字方面变得非常出色。
ImageNet 和GPU
尽管取得了这些进步,但神经网络无法始终优于其他类型的机器学习 算法。它们需要人工智能之外的两项发展来铺平道路。第一是大量训练数据的出现,这些数据可通过网络获得。第二是足够的计算能力来执行这种训练,即 3D图形芯片(称为 GPU)。到 2012 年,AlexNet 的时机已经成熟。

李飞飞的 ImageNet 图像数据集于 2009 年完成,是训练 AlexNet 的关键。图中,李飞飞 [右] 在计算机历史博物馆与 Tom Kalil 交谈。
训练 AlexNet 所需的数据来自ImageNet,该项目由斯坦福大学教授李飞飞发起并领导。从 2006 年开始,李飞飞一反传统观点,设想了一个涵盖英语中所有名词的图像数据集。她和她的研究生开始收集在互联网上找到的图像,并使用WordNet提供的分类法对它们进行分类,WordNet 是一个单词及其相互关系的数据库。鉴于任务的艰巨性,李飞飞和她的合作者最终使用亚马逊的 Mechanical Turk 平台将标记图像的任务众包给了零工。
ImageNet 于 2009 年完成,比之前的任何图像数据集都大几个数量级。李飞飞希望它的出现能带来新的突破,并于 2010 年发起了一场竞赛,鼓励研究团队改进他们的图像识别算法。但在接下来的两年里,最好的系统只取得了微小的进步。
神经网络成功的第二个必要条件是经济地获取大量计算。神经网络训练涉及大量重复的矩阵乘法,最好是并行完成,而 GPU 就是为此而设计的。由首席执行官黄仁勋 (Jensen Huang )共同创立的NVIDIA在 21 世纪率先使 GPU 更具通用性和可编程性,可用于 3D 图形以外的应用,尤其是在 2007 年发布的CUDA 编程系统。
ImageNet 和CUDA就像神经网络一样,都是相当小众的开发成果,它们正在等待合适的环境来大放异彩。2012 年,AlexNet 首次将这些元素(深度神经网络、大数据集和 GPU)结合在一起,并取得了开创性的成果。这三个元素相互依存。
AlexNet 是如何创建的
到 2000 年代后期,Hinton 在多伦多大学的研究生开始使用 GPU 来训练神经网络,用于图像和语音识别。他们的第一个成功来自语音识别,但在图像识别方面的成功表明深度学习可能是 AI 的通用解决方案。一名学生 Ilya Sutskever 认为,神经网络的性能将随着可用数据量的增加而扩展,而 ImageNet 的出现提供了这个机会。
2011 年,Sutskever 说服了研究生同学 Alex Krizhevsky(Alex Krizhevsky 对充分发挥 GPU 的性能有着敏锐的能力)为 ImageNet 训练卷积神经网络,Hinton 则担任首席研究员。

AlexNet 使用NVIDIA GPU 运行在 ImageNet 数据集上训练的 CUDA 代码。NVIDIA 首席执行官黄仁勋因其对计算机图形芯片和 AI 的贡献而被评为 2024 年 CHM 研究员。
Krizhevsky 已经使用 NVIDIA GPU 编写了卷积神经网络的 CUDA 代码,称为cuda-convnet ,在小得多的CIFAR-10 图像数据集上进行训练。他扩展了 cuda-convnet,使其支持多个 GPU 和其他功能,并在 ImageNet 上对其进行了重新训练。训练是在 Krizhevsky 父母家中卧室的一台装有两张 NVIDIA 卡的计算机上进行的。在接下来的一年里,他不断调整网络的参数并重新训练,直到它的性能优于竞争对手。该网络最终以 Krizhevsky 的名字命名为 AlexNet。Geoff Hinton这样总结 AlexNet 项目:“Ilya 认为我们应该做这件事,Alex 让它成功了,我获得了诺贝尔奖。”
Krizhevsky、Sutskever 和 Hinton 撰写了一篇关于 AlexNet 的论文,该论文于 2012 年秋季发表,并于 10 月由 Krizhevsky 在意大利佛罗伦萨举行的计算机视觉会议上进行了展示。资深计算机视觉研究人员并不相信,但参加会议的 LeCun 宣布这是人工智能的转折点。他是对的。在 AlexNet 之前,几乎没有一篇领先的计算机视觉论文使用神经网络。在它之后,几乎所有论文都会使用神经网络。
AlexNet 只是一个开始。在接下来的十年里,神经网络将不断进步,可以合成可信的人类声音、击败围棋冠军选手并生成艺术作品,最终由Sutskever 共同创办的公司 OpenAI于 2022 年 11 月发布了ChatGPT 。
发布 AlexNet 源代码
2020 年,我联系了 Krizhevsky,询问是否可以允许 CHM 发布 AlexNet 源代码,因为它具有历史意义。他把我介绍给了当时在谷歌工作的 Hinton。谷歌收购了 Hinton、Sutskever 和 Krizhevsky 共同拥有的公司 DNNresearch,从而拥有了 AlexNet。Hinton 通过将 CHM 与谷歌的合适团队联系起来,推动了事情的发展。CHM 与谷歌团队合作了五年,就发布事宜进行了谈判。该团队还帮助我们确定了要发布的 AlexNet 源代码的具体版本——多年来,AlexNet 有过许多版本。GitHub 上还有其他名为 AlexNet 的代码存储库,但其中许多都是基于著名论文而不是原始代码的重新创作。
CHM 很荣幸能够展示 2012 年版 AlexNet 的源代码,该版本彻底改变了人工智能领域。您可以在CHM 的 GitHub 页面上访问源代码。
本文作者可以追加内容哦 !