关于人工智能发展的思考.doc-得力文库

资源描述

《关于人工智能发展的思考.doc》由会员分享，可在线阅读，更多相关《关于人工智能发展的思考.doc（9页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、关于人工智能发展的思考关于人工智能发展的思考关键词：计算机人工智能深度模型摘要：近年来计算机发展的速度飞快它已经不仅仅是一块冰冷的电路板他有着自己的思维自我的运算能力现在的我们更喜欢称之为人工智能。机器学习如今大获成功的原因有哪些？如何才能取得进一步的突破？南京大学周志华教授在AI WORLD 2021大会上分享他关于机器学习的一点思考：我们需要设计新的、神经网络以外的深度模型；让智能体在弱监督条件下也能够学习以及考虑开放动态任务环境下的学习。南京大学计算机系主任、人工智能学院院长周志华分享了他关于机器学习的一点思考。周志华教授表示当前机器学习成功的背后实际上离不开三点：1）有效的

2、深度模型现阶段基本上就是深度神经网络；2）存在强监督信息也即数据都要有标注而且越精准越好；3）学习的环境较为稳定。因此如果未来机器学习要取得进一步突破就必须：1）设计新的、多样化的深度模型；2）让智能体能够在弱监督条件下学习；3）考虑开放动态任务环境下的学习。周志华教授说机器学习界早就很清楚“没有免费的午餐”也即任何一个模型可能只适用于一部分的任务而另外一些任务是不适用的。例如Kaggle竞赛中有各种各样的任务但在图像、视频、语音之外的很多任务上比如订机票、订旅馆之类还是传统机器学习技术（如随机森林或_GBoost）表现更好尤其是涉及符号建模、离散建模、混合建模等问题。周志华教授着重介绍了

3、他带领团队提出的“深度森林”这是一种以决策树为基础构建的深度模型。深度森林在超大型互联网金融企业的非法套现检测任务中近2亿的真实交易数据实测上性能超越了包括深度神经网络在内的其他模型。这也验证了周志华教授及其团队的猜想在很多其他任务上非神经网络的深度模型能找到用武之地。不过周志华教授也表示任何一个理论的提出都需要经过长时间的发展与完善。深度森林目前尚处于初级阶段好比打开了“深度学习”这间小黑屋的一扇门还有更多需要去探索。根据周志华教授给出的猜想和理论再综合个人的一些了解和查询的资料我做出了如下的总结与思考。首先是深度模型。现在深度学习在图像、视频、语音这些数字信号建模任务当中取得了巨大的

4、成功。如果我们问一问大家“深度学习”是什么？我想从绝大多数人那里得到的答案都会是：深度学习就是深度神经网络甚至认为“深度学习”就是“深度神经网络”的同义词谈到深度学习就要从深度神经网络或者从神经网络谈起。事实上神经网络并不是新事物我们已经研究了半个多世纪只不过以前我们通常研究的是有一个隐层或两个隐层这种比较浅的神经网络其中每个计算单元都是非常简单的模型。早在1943年我们就已经把它抽象成了这样一个非常简单的数学公式就是从外界收到输入_经过W放大总的输入如果要比高我们就会用激活函数处理进行输出。这样的模型到今天依然在沿用。深度神经网络带来的最大区别是什么呢？虽然有各种各样的模型各种各样的算法

5、但是最根本的差别就是现在我们用了很多很多层。深度神经网络最著名、最早的成功来自20_年在计算机视觉领域最著名的Image比赛上获胜。当时这个获胜的模型用了8层2021年获胜的模型用了152层2021年就用到了1207层今天几千层的模型比比皆是。实际上这样的模型当中有大量参数需要计算所以需要非常复杂、非常庞大的计算系统。虽然现在我们有了很强的计算设备和很巧妙的算法但是我们能够做到这一切根本的原因之一是神经网络中基本计算单元激活函数是连续可微的。原来浅层神经网络用的是左边的函数也是连续可微的深度学习的年代我们通常会用右边这样的函数或变体。不管怎么样可微性给我们带来了非常重要的结果就是可以很容

6、易地计算出梯度基于梯度的调整就可以用著名的BP算法来训练整个模型。这一点非常重要因为如果不是从事机器学习研究的朋友会觉得神经网络半个世纪之前就有了到了今天我们之所以能够做更深的神经网络只不过是因为计算能力强现在能够训练了。实际上不是这样的。 20_年之前可以说我们都不知道怎么训练出5层以上的神经网络根本原因是一旦层数高了以后用BP算法梯度就会消失然后就不知道怎么学习下去。所以20_年的时候Geoffrey Hinton做了很重要的工作通过逐层训练来缓解梯度消失使得深层模型能够被训练出来。后来有了一系列深度学习的工作包括到今天为止的很多前沿研究都是在防止深层网络中梯度消失使得梯度更新搜索能持续

7、下去使训练能够完成。神经网络取得了非常大的成功但任何一个模型都必然存在缺陷神经网络也是这样。常用神经网络的朋友知道现在深度神经网络有很多问题。大家经常说的一件事情就是要花大量的精力调整参数参数实在太多了。不仅如此这还会带来另外一个严重的问题：哪怕我告诉你同样的算法、用同样的数据如果不告诉你参数是怎么调的可能就没有办法得到同样的结果。此外还有很多别的问题比如我们现在用的神经网络模型的复杂度是固定的一旦先确定了一个模型就把这个模型用下去。问题是在解决一个现实问题之前我们怎样才能知道什么样的模型是最恰当的呢？我们不知道所以通常会用一个过度复杂的模型来做问题做的过程当中不断把它简化。最近如果

8、大家关心深度学习方面的一些前沿研究可能就会发现现在有大量的论文是关于模型压缩、模型简化等等事实上都是由这个原因导致的。我们能不能在使用模型的最初不要使用那么复杂的东西？先使用一个比较简单的然后随着数据和训练的过程让它自适应地、自动地提升复杂度呢？很遗憾我们对神经网络很难做到这一点因为我们一旦用BP算法基于梯度搜索来做这件事情如果事先结构都完全不知道那么求梯度的对象也就不知道了。这里有很多的问题更不用说还有其它的缺陷比如大的训练数据、理论分析很困难、黑箱模型等等。有些工业界的朋友可能会说前面你们谈到的这些缺陷都是从学术角度来说的我关心实践只要性能好就行至于学术上有什么缺点我不关心。实际上就算从

9、这个角度来看可能也还有很多的需求希望我们去研究其它的模型。如果我们真正看一看今天的深度神经网络到底在哪些任务上取得了成功其实我们可以看到无外乎主要就是图像、视频、语音涉及到这些对象的任务。它们非常典型都是一些数值信号建模的任务。而在很多其他的任务上深度神经网络表现并没有那么好比如可能有的朋友接触过Kaggle这个数据分析竞赛的网站上面每天都有很多数据分析的任务有订机票的有订旅馆的到今天为止虽然深度学习网络这么成功很多这样的任务上我们可以看到获胜的通常还是一些相对传统的机器学习技术而不是深度神经网络。总结一下现在机器学习成功的背后主要有三个原因有效的深度模型存在强监督信息以及学习环境比较稳定

10、。但是现实应用里面这三件事情都不成立有的场合可能还没有很适合的深度学习模型监督信息也不够强任务环境不断变化等等。所以下一步机器学习的研究或者应用特别要关注研究新型深度模型、弱监督学习以及开放环境的学习。事实上机器学习界早就很清楚这件事情了我们有一个经过严格证明的定理叫做“没有免费的午餐定理”也就是任何一个模型可能只有一部分任务是适用的另外一些任务是不适用的。另外一方面这毕竟只是一个起点因为深度神经网络研究了20多年深度神经网络经过几十万上百万研究实践者这么多年的探索改进而非神经网络深度学习的研究才刚刚开始只有几个人做了一点点事情未来有非常多可以探索的东西。任何一个新技术往前走的话都有很多工

11、作要做。关于深度模型真正重要的意义是以前我们以为深度学习只有深度神经网络现在知道这里面可以有很多其它的东西。深度学习需要大量的样本20_年Image获胜的网络已经用到超过1500多万样本而现在的网络越来越大所需要的样本越来越多。大家可能会有一个误解大数据时代数据样本是不是不成问题。其实不是的。样本需要标记我们现在大量的人力物力都花在这件事上比如前段时间有讨论人工智能会不会使得一些职业消亡。是不是消亡我们没看到但是我们已经看到一个新的职业就是数据标注已经变成一个产业。这件事情不管它好还是不好反正它就在那儿至少告诉我们机器学习技术现在对强监督信息是高度依赖的。谈到这件事可能有的朋友会想到前段

12、时间很热门的AlphaGo最早的AlphaGo使用人类职业六段以上的所有棋局超过16万棋局进行学习。后来发明了AlphaZero不使用人类棋局通过两个程序直接对弈提升性能这样是不是不需要监督信息了呢？所谓的AlphaZeroDeepMind说它是“从零开始学习”第一天没有任何数据第三天超过战胜李世石的版本第21天超过Alpha Master第40天达到人类见到的最强能力。中间没有用任何人类的棋局这是不是意味着它背后的强化学习技术真的不需要监督信息？其实不是这样的。因为非常重要的一点是当两个程序在对弈的时候我们一定能够判断出胜负而胜负规则是非常强的监督信息是上帝判断。打个比方来说我要建一个

13、能抵抗18级台风的桥事先不知道怎么建没有人教我怎么建不管怎么样如果我能建出一个东西来就有一个“上帝”告诉我你这个东西能扛过去、那个东西扛不过去有了这个指导信息经过不断摸索最后就可能把这个桥建出来。真正的现实应用中哪里能得到这样的上帝规则？根本得不到。我们也不可能通过无成本探索像围棋这样获得大量的样本。我们没有办法去做真正的不需要任何数据不需要任何标记的学习。现在能做的还是要往弱监督学习上做。所谓的弱监督学习就是希望监督信息不用那么多了稍微少一点它还是能够工作得很好。举几个典型的弱监督学习的例子：在医院里诊断乳腺图像的影像希望看到影像中有没有钙化点。一个医院有很多数据比如100万幅图像但是医生只标注了一万幅有99万幅没有标记这种叫做监督信息不完全。第二种情况可能医生只告诉我们这个图像里面有病灶但是病灶在哪儿没标出来这时候我们把它叫监督信息不具体。还有更多的情况比如医生由于疲劳、疏忽等标注中间有错误我们就把它叫做监督信息不精确这是三种典型的情况。所以虽然深度神经网络在有些任务上很成功但对别的应用来说我们有没有可能设计出新的模型在这些任务取得以往没有取得的效果？这可能也是非常值得关注的一件事情。计算机与人工智能之间还有许多问题值得我们探索现在的这些发现可能只是冰山一角科学的道路道阻且长。第 9 页共 9 页

展开阅读全文