幸运飞艇:人工智能从0到1:阿法零AlphaGo Zero无师自通100-0完

编辑:凯恩/2018-12-22 23:22

  :人工智能从0到1:阿法零AlphaGo Zero无师自通100-0完爆阿法狗AlphaGo(1769字)。深度神经网络强大的特征提取能力以及寻找更优解的能力,摆脱对人类经验和辅助的依赖,从应用角度,以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作,类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域——无监督学习未来之路,这也许是阿法零的最伟大的创新(novelty),搞不好会诞生一个图灵奖。【“数据简化DataSimp、科学Sciences、知识简化”公号希望聚集;研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。公号由秦陇纪发起,未覆盖各领域科普及简化,期待大家参与~】

  2016年底AlphaGo阿法狗4-1打败世界冠军Lee Sedol李世石,本文以从此人间无敌手。然而2017年10月18日DeepMind公布最新研究成果,AlphaGo Zero(阿法元、直译阿法零)在没有任何先验知识前提下,通过完全自学,完全击败最强版本阿法狗。如何评价阿法零(AlphaGo Zero)不看人类棋谱,从零开始,自我学习从而100-0完败其亲哥阿法狗?

  Nature10月19日上线的这篇重磅论文(论文链接),详细介绍了谷歌DeepMind团队最新的研究成果。人工智能的一项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。

  新一代阿法零(AlphaGo Zero)完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,只需4个TPU上花三天时间、自己左右互搏490万棋局,完全靠自己一个人强化学习(reinforcement learning)参悟棋艺。算力增长远超阿法狗,百战百胜,击溃阿法狗100-0。达到这样一个水准,阿法零的哥哥阿法狗,需要48个TPU上花几个月的时间,学习三千万棋局,才打败人类。

  Perfect Games完美游戏(如围棋、象棋)对于人类而言,从此再也不能对抗机器学习类AI程序。最厉害的人类棋手,如柯洁所能达到的棋力只能与原版AlphaGo相近。战胜李世石的AlphaGo是用传统增强学习技术加深度神经网络DNN完成搭建,借助走子策略、样本空间、强化学习,收敛于局部最优。而阿法零AlphaGo Zero吸取了最新成果做出了重大改进,采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN得到两种输出policy和value,然后利用一个蒙特卡罗搜索树完成当前步骤选择。

  AlphaGo Zero不用人类历史棋局,训练过程从完全随机开始,也就是说训练过程不再需要大量人类标注样本。AlphaGo Zero在DNN网络结构上吸收了最新进展,采用了ResNet网络中的Residual结构作为基础模块。近几年流行的ResNet加大了网络深度,而GoogLeNet加大了网络宽度。之前大量论文表明,ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。AlphaGo Zero采用了Residual应该有速度方面的考虑。

  DeepMind新算法AlphaGo Zero阿法零,开始摆脱对人类知识的依赖:在学习开始阶段无需先学习人类选手的走法,另外输入中没有了人工提取的特征。网络结构设计上,新算法与之前的AlphaGo有两个大的区别:

  一、与之前将走子策略(policy)网络和胜率值(value)网络分开训练不同,阿法零网络结构可同时输出该步的走子策略(policy)和当前情形下的胜率值(value)。阿法零policy与value网络共用之前大部分特征提取层,输出阶段的最后几层结构仍然相互独立。阿法零训练的损失函数也同时包含policy和value两部分。这样的显然可以节省训练时间,更重要的是,混合policy与value网络也许能适应更多种不同情况。

  二、特征提取层采用20或40个残差模块,每个模块包含2个卷积层。与之前采用12层左右卷积层相比,残差模块运用使网络深度获得很大提升。AlphaGo Zero不再需要人工提取特征,应该也是由于更深的网络能更有效地直接从棋盘上提取特征。根据文章提供的数据,这两点结构上的改进对棋力的提升贡献大致相等。

  总之,阿法零放弃学习人类棋手走法以及人工提取特征之后,算法能够取得更优秀表现。

  深度神经网络强大的特征提取能力以及寻找更优解的能力,摆脱对人类经验和辅助的依赖,从应用角度,以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作,这是其意义(significance)所在!类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域——无监督学习未来之路,这也许是阿法零的最伟大的创新(novelty),搞不好会诞生一个图灵奖。

  大数据、数据挖掘、机器学习、神经网络和人工智能,会持续应用到社会各个角落,传统人类知识会变得越来越苍白无力,人类接受的教育、所拥有的知识和技能,都面临新文明高度的挑战。

  信息社会之数据、信息、知识、理论越来越多,远远超越个人认知学习能力、幸运飞艇时间、精力。行动起来,解决这个问题,主要方法是数据简化(Data Simplification):简化减少知识、媒体、社会数据,应对大数据时代的数据爆炸、信息爆炸、知识爆炸,使信息、数据、知识越来越简单,符合人与设备的现有负荷。

  数据简化2018年会议(DS2018)聚焦数据简化技术(Data Simplification techniques):对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方面做简化,应用于信息系统、大数据、自然语言处理、知识工程,数学统计,结构化数据库、机器学习技术、生物数据、信息系统、物理空间表征等领域。请通过DataSimp论文投稿网站或会议网站提交电子版(最好有PDF格式)论文。详情访问,如遇网站维护,请投至会员邮箱。

  “数据简化DataSimp”社区义工志愿者,至少投一篇:①高质量原创投稿,正式成为数据简化DataSimp社区成员;②翻译美欧数据科学技术论文,IT大数据、人工智能、编程开发技术文章;③设计黑白静态和三彩色动态社区S圈型LOGO图标。

  投稿、加入数据简化DataSimp社区,请关注公众号“数据简化DataSimp”、网站;公号留言,或加微信QinlongGEcai(备注:姓名-单位/学校-职务/专业-手机号)。

  免费分享型社群入口=科学Sciences学术文献(今天下篇就是)