首页 > 学术百科

机器学习系列（二）：深度学习的辉煌

机器学习系列（⼆）：深度学习的辉煌

【嵌⽜导读】本⽂主要介绍了深度学习，包括深度学习与传统机器学习的不同、深度学习的三教⽗以及深度学习的技术突破等内容。

【嵌⽜⿐⼦】深度学习

【嵌⽜提问】相⽐机器学习，深度学习的不同在哪⾥？这种不同给深度学习带来了什么优势？

【嵌⽜正⽂】

如今，当有⼈提到⼈⼯智能引起社会变⾰潜⼒时，他们很可能是在谈论机器学习中的⼈⼯神经⽹络。当⼀篇⽂章谈⼈⼯神经⽹络突破性进展时，作者很可能指的是深度学习。

⼈⼯神经⽹络是⼀种⾮线性统计建模⼯具，可以⽤于发现输⼊和输出之间的关系，或在⼤型数据库中发现模式。⼈⼯神经⽹络已应⽤于统计模型开发、⾃适应控制系统、数据挖掘模式识别和不确定性下的决策。

深度学习是基于⼈⼯神经⽹络和表⽰学习的⼀系列机器学习⽅法的⼀部分。学习可以是有监督的、半监督的或⽆监督的，甚⾄强化学习的。

【深度学习有别于传统机器学习】

有⼈称，“实际上，深度学习是⼀种称为神经⽹络的⼈⼯智能⽅法的新名称，这种⽅法已经流⾏了70多年了”。但是，这样的说法并不准确。深度学习有别于传统机器学习。这⾥的“传统机器学习”，是指20世纪普通的神经⽹络，或浅层神经⽹络。

的确，计算机与⼤脑的关系，曾经吸引了20世纪40年代计算机先驱的关注。例如，1945年6⽉，约翰·冯·诺伊曼（John von Neumann）在《EDVAC报告草稿》⾸次描述现代计算的关键体系结构概念时，就使⽤了“memory（记忆）”，“organ（器

官）”和“neuron（神经元）”等⽣物学术语。冯·诺伊曼⽣前还撰写《计算机与⼈脑》未完成稿，从数学的⾓度解析了计算机与⼈脑神经系统的关系。⼜如，1943年，沃伦·麦卡洛克（Warren McCullough）和沃尔特·⽪茨（Walter Pitts）⾸次提出神经⽹络，他们的神经元模型，能够实现布尔逻辑语句。

第⼀次重⼤的神经⽹络突破，出现在20世纪60年代中期，苏联数学家亚历克赛·伊⽡克年科（Alexey Ivakhnenko）在他的助⼿拉帕（V.G.Lapa）的帮助下创建了⼩型但功能较强的神经⽹络，采⽤有监督深度前馈多层感知器的学习算法。⽽单层感知机是20世纪50年代罗森布拉特发明的。

上世纪80年代初，约翰·霍普菲尔德（John Hopfield）的循环神经⽹络（recurrent neural networks）引起了轰动，紧接着特⾥·塞伊诺夫斯基（Terry Sejnowski）的程序NetTalk可以发⾳英语单词。

2006年，卡内基梅隆⼤学教授、计算机科学家杰弗⾥·⾟顿使⽤了“深度学习”这个词，此后，“深度学习”术语很快⼴泛流⾏。虽然，这个术语并⾮⾟顿第⼀个使⽤的，早在1986年，R.德克特（R. Dechter）的⼀篇论⽂就将“深度学习”⼀词引⼊机器学习。2000年，艾森伯格（Aizenberg）等⼈⾸次将其引⼊⼈⼯神经⽹络。

21世纪的深度学习与传统神经⽹络区别在哪⾥呢？

⾸先，⼈⼯神经⽹络包含输⼊层和输出层之间的隐藏层。传统的神经⽹络只包含⼀个或⼏个隐藏层。深度学习是⼀个⾮常⼤的神经⽹络，包含多得多的隐藏层（通常为150个），它们可以存储和处理更多信息。这是深度学习有别于传统神经⽹络的最重要的⼀点。因此，名称“深层”⽤于此类⽹络。

其次，深度学习不需要⼿⼯提取特征，⽽直接将图像作为输⼊。这是深度学习有别于传统神经⽹络的另⼀点。图1描述了在机器学习和深度学习中识别对象所遵循的过程。

第三，深度学习需要⾼性能的GPU和⼤量数据。特征提取和分类是通过称为卷积神经⽹络（CNN）的深度学习算法进⾏的。CNN负责特征提取以及基于多个图像的分类。当数据量增加时，深度学习算法的性能也会提⾼。相反，当数据量增加时，传统学习算法的性能会降低。

图1 机器学习与深度学习通心络>goagent ios

在机器学习中，需要提供给算法更多的信息（例如，通过执⾏特征提取）来做出准确的预测。在深度学习中，由于采⽤了深度⼈⼯神经⽹络的结构，算法可以通过⾃⾝的数据处理学习如何做出准确的预测。表1更详细地⽐较了这两种技术：

表1 深度学习与传统机器学习⽐对

【深度学习的三教⽗】

约书亚·本吉奥（Yoshia Bengio，出⽣1964.3.5）是加拿⼤的计算机科学家，最著名的是他在⼈⼯神经⽹络和深度学习⽅⾯的⼯作。他是蒙特利尔⼤学计算机科学与运筹学系的教授，并且是蒙特利尔学习算法研究所的科学主任。

扬·勒村（Yann LeCun，出⽣1960.7.8）是⼀位法国计算机科学家，主要从事机器学习，计算机视觉，移动机器⼈和计算神经科学领域的研究。他是纽约⼤学库兰特数学科学研究所的银教授，并且是Facebook副总裁兼⾸席AI科学家。

杰弗⾥·⾟顿（Geoffrey Everest Hinton，出⽣1947.12.6），是英国和加拿⼤认知⼼理学家和计算机科学家，最著名的是他在⼈⼯神经⽹络⽅⾯的⼯作。⾃2013年以来，他将在⾕歌和多伦多⼤学⼯作的时间⼀分为⼆。2017年，他共同创⽴并成为多伦向量研究所（Vector Institute，⼈⼯智能研究机构）的⾸席科学顾问。

图2 勒村（左）和⾟顿（中）和本吉奥（右）

2018年图灵奖授予了三位研究⼈员，他们为当前的⼈⼯智能繁荣奠定了基础。本吉奥，勒村和⾟顿有时被称为“ AI的教⽗”，因其开发深度学习领域的⼯作⽽获奖。这三⼈在20世纪90年代和21世纪00年代开发的技术，在计算机视觉和语⾳识别等任务上实现了重⼤突破。他们的⼯作⽀持了从⽆⼈驾驶汽车

到⾃动医疗诊断的AI技术的发展。

早在1970年代中期，“ AI寒冬”减少了对⼈⼯智能研究的资⾦投⼊和热情。但杰弗⾥·⾟顿却坚守在神经⽹络研究的领域：模拟神经节点⽹络的发展，以模仿⼈类思想的能⼒。1986年，⾟顿和其他⼏位研究⼈员，通过证明不⽌⼀⼩部分神经⽹络可以通过反向传播进⾏训练，帮助神经⽹络⽤于改进形状识别和单词预测。2012年，杰弗⾥·⾟顿与他的学⽣亚历克斯·克⾥泽夫斯基（Alex Krizhevsky，出⽣于乌克兰，在加拿⼤长⼤）、伊利亚·萨茨凯（Ilya Sutskever）⼀起，改进了卷积神经⽹络，共同开发的⼀个程序，⼤⼤超越了ImageNet的所有其他参赛者，这是⼀项涉及上千种不同对象类型的图像识别竞赛。⾟顿团队在⼀个“6000万个参数和65万个神经元”的⽹络（由“5个卷积层，其中⼀些层后⾯是最⼤池化层”组成的）中使⽤图形处理器芯⽚。“卷积层”是勒村最初设想的⼀种⽅法，⾟顿的团队对此进⾏了重⼤改进。⾟顿长期以来还坚持他对“⽆监督”训练系统潜⼒的信念，在这种系统中，学习算法试图在不提供⼤量标记⽰例的情况下识别特征。⾟顿认为，这些⽆监督学习⽅法不仅有⽤，⽽且使我们更接近于了解⼈脑所使⽤的学习机制。

1988年，雅恩·勒村开发了⼀种⽣物启发的图像识别模型——卷积神经⽹络，并将其应⽤于光学字符识别。勒村提出了⼀个早期版本的反向传播算法，并基于变分原理对其进⾏了清晰的推导。1998年开发了LeNet5，并制作了被杰弗⾥·⾟顿称为“机器学习界的果蝇”的经典数据集MNIST。勒村于2003年离开⼯业研究，在纽约⼤学的库兰特数学科学研究所（Courant Institute of Mathematical Institute）担

任计算机科学教授，这是美国应⽤数学研究的领先中⼼。它在科学计算中有很强的地位，尤其侧重于机器学习。在纽约⼤学，勒村在计算和⽣物学习实验室，继续从事机器学习算法和计算机视觉应⽤的研究。勒村保持了他对建造的热爱，包括建造飞机、电⼦乐器和机器⼈的兴趣爱好。从2013年12⽉起，他被Facebook聘⽤从事⼈⼯智能研究，现在是Facebook的⾸席AI科学家。

2000年，约书亚·本吉奥撰写了⼀篇⾥程碑式的论⽂《神经概率语⾔模型》（参考资料[2]），对⾃然语⾔处理任务（包括语⾔翻译、问答和视觉问答）产⽣了巨⼤⽽持久的影响。⾃2010年以来，本吉奥关于⽣成性深度学习的论⽂，特别是与他的博⼠⽣伊恩·古德费洛（Ian Goodfellow）共同开发的⽣成性对抗⽹络（GAN），在计算机视觉和计算机图形学领域引发了⼀场⾰命。本吉奥本⼈曾与他⼈共同创⽴了⼏家初创公司，其中最著名的是2016年的Element AI，该公司为深度学习技术开发⼯业应⽤程序。2017年约书亚·本吉奥和伊恩·古德费洛、亚伦·库维尔出版了《深度学习》⼀书，是深度学习领域奠基性教材，⼜名“花书”，被誉为深度学习的“圣经”。

【21世纪10年代深度学习技术突破】

以物体识别为标志，从传统机器学习到深度学习的转变，⼤约发⽣在21世纪10年代初。但在2010年之前⼏年，已经已经为此转变做了准备，包括算法（“深度学习”）、建⽴图像数据库（“ImageNet”）和提升算⼒（“GPU”）。

⼤约在2016年之后，深度学习显⽰出令⼈印象深刻的结果，⾸先是在语⾳识别，然后是计算机视觉，最近是在⾃然语⾔处理⽅⾯。由此产⽣的算法，在学术和⼯业应⽤领域，引发了⼀场深度学习⾰命。

以下简单回顾发展历程。

2006年，杰弗⾥·⾟顿等⼈说。发表了⼀篇论⽂（参考资料[1]），展⽰了如何训练⼀个能够以最先进的精度识别⼿写数字的深度神经⽹络（>98%）。他们称这种技术称为“深度学习”。深度神经⽹络是⼤脑⽪层⼀个⾮常简化的模型，由⼀叠⼈⼯神经元层组成。

2008年，吴恩达（Andrew NG）在斯坦福的研究⼩组开始提倡使⽤GPU来训练深层神经⽹络，以将训练时间缩短数倍。这为在海量数据上进⾏有效的训练带来了深度学习领域的实⽤性。

2009年，斯坦福⼤学的⼈⼯智能教授李飞飞（Fei Fei Li）推出了ImageNet。李飞飞是⼀位华裔美国计算机科学家。ImageNet项⽬是⼀个⼤型可视化数据库，设计⽤于视觉对象识别软件的研究。超过1400万张图⽚已经被该项⽬⼿⼯标注，包含20000多个类别。李飞飞教授说：“我们的愿景是，⼤数据将改变机器学习的⼯作⽅式。数据驱动学习。”

图3 李飞飞

2011年，约舒亚·本吉奥等在他们的论⽂“深度稀疏整流神经⽹络”中表明ReLU激活函数可以避免消失梯度问题。这意味着，除了GPU，深度学习社区还有另⼀个⼯具，来避免深度神经⽹络训练时间过长和不切实际的问题。

2012年，多伦多⼤学教授杰弗⾥·⾟顿和他的学⽣亚历克斯·克⾥热夫斯基（Alex Krizhevsky）以及另外⼀个学⽣，建⽴了⼀个名为AlexNet的计算机视觉神经⽹络模型，参加ImageNet的图像识别⽐赛。参赛者将使⽤他们的系统处理数以百万计的测试图像，并以尽可能⾼的精度识别它们。AlexNet以不到亚军⼀半的错误率赢得了⽐赛。这场胜利在全球引发了⼀场新的深度学习热潮。AlexNet是在多年前由雅恩·勒村建造的LeNet5（图4A）基础上，发展和改进的。AlexNet是⼀种⽤于图像分类的多层卷积神

经⽹络（图4B）。AlexNet架构包括5个卷积层和3个完全连接层（对⽐⽽⾔，LeNet是⼀个5层的卷积神经⽹络模型，它有两个卷积层和3个全连接层）。

(A)

(B)

人因图4 LeNet-5(A)和AlexNet的计算机视觉神经⽹络模型(B)

2012年，Google Brain发布了⼀个被称为“猫实验”的不寻常项⽬的结果。该项⽬探索了“⽆监督学习”的困难。猫实验使⽤了分布在⼀个由16000台电脑组成的⽹络，通过观看YouTube视频中的1000万张“未标记”的图⽚，训练⾃⼰识别猫。在训练结束时，发现最⾼层的⼀个神经元对猫的图像有强烈的反应。该项⽬的创始⼈吴恩达说：“我们还发现了⼀种对⼈脸反应⾮常强烈的神经元。”。

2014年，⽣成型对抗性神经⽹络也称为GAN，是由伊恩·古德费洛（Ian Goodfellow）创建的。GANs凭借其合成真实数据的能⼒，在时尚、艺术、科学等领域开启了⼀扇全新的深度学习应⽤之门。

2016年，DeepMind的深度强化学习模型AlphaGo在复杂的围棋游戏中击败了⼈类冠军。聚苯乙烯磺酸钠

2019年，本吉奥、勒村和⾟顿因其在深度学习和⼈⼯智能领域的巨⼤贡献，获得2018年度图灵奖。

2020年，OpenAI发布GPT-3，这是⼀种具有1,750亿个参数的⾃然语⾔深度学习模型。同年，DeepMind公司开发的⼈⼯智能程序AlphaFold2预测蛋⽩质结构堪⽐实验室⽔平。

【结语】

20世纪探索感知机和⼈⼯神经⽹络的科学家，都是基于这样的想法，即类似的⽹络可能像⼈的⼤脑⼀样，能够学习识别物体或执⾏其他任务。深度学习在21世纪10年代取得了辉煌的成就，成为驱动⼈⼯智能繁荣的动⼒。深度学习的成功已经⽤于在照⽚中识别物体或分类，⾃动驾驶汽车，游戏，⾃动机器翻译，图像字幕⽣成，⽂本⽣成，不同化学结构的毒性检测，预测蛋⽩质的 3D 结构形状等。深度学习已经变成了⼀种颠覆性的技术。总有⼀天，⽆⼈驾驶汽车会⽐你更了解道路，驾驶技能更⾼；深⼊的学习⽹络会诊断你的疾病。

“漫谈”的四篇博客（⼈⼯智能的第⼀项⼯作、感知机的兴衰、神经⽹络的复苏和深度学习的辉煌），回顾了神经⽹络和深度学习的从20世纪40年代⾄今的发展的若⼲重要事件，可以看出：（1）多学科协同研究很重要。（2）对新技术不要仓促否定，也不要夸张宣传。（3）科学家的坚持不懈的努⼒，造就了今天深度学习的辉煌和⼈⼯智能的繁荣。

深度学习的繁荣，也反映在出版有许多有关深度学习的图书，特别是有关深度学习编程的⼯具箱，对进⼀步学习提供很多便利（例如，[3]，[4]和[5]）。

参考资料：

[1] Geoffrey E. Hinton et al., “A Fast Learning Algorithm for Deep Belief Nets,” Neural Computation 18 (2006): 1527–1554

[2] Yoshua Bengio, Rejean Ducharme and Pascal Vincent . A Neural Probabilistic Language Model . NIPS'2000, 932-938. MIT Presseis

极端生命[3] Ivan Vasilev, Daniel Slater, Gianmario Spacagna, Peter Roelants, Valentino Zocca. Python Deep Learning. 2nd Edition. Packt. 2019

[4] Aurélien Géron. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition. Oreilly. 2019

[5] Pramod Singh, Avinash Manure. Learn TensorFlow 2.0: Implement Machine Learning And Deep Learning Models With Python. Apress. 2020

本文发布于:2024-09-22 01:00:46，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/407376.html

上一篇：七年级下册生物模型简单易做

下一篇：基于神经网络优化算法的库存预测应用研究

标签：学习深度神经机器计算机算法

留言与评论（共有 0 条评论）