柯洁对战阿尔法狗第二局中盘认输!Alphago为什么如此厉害?

2017-05-25 14:30:00 36氪

今天上午,柯洁对战阿尔法狗的第二局比赛展开角逐。在这场三番棋比赛第二局进行到下午1点37分时,柯洁主动投子认输,台下观众一脸懵逼(截止发稿前仍处于震惊中),AlphaGo提前一个多小时在中盘战胜柯洁!

比赛结果

柯洁对战阿尔法狗第二局中盘认输!Alphago为什么如此厉害?

在这次比赛中,围棋国手古力、张璇(曾获得过中国冠军)担当开局时段的解说员。古力认为,在特别难判断的盘面上,AlphaGo比我们要思考地更加准确,也就是说从一步看未来几十步的“本事”。

从开局来看,柯洁想把时间多用在对布局的策略方面,而且在前十手时打的一直非常不错,盘面很稳,甚至预料到AlphaGo多步棋的下子位置。与此同时,AlphaGo的表现跟人类无异,每一步下的都很平常,甚至很多步都被古力预测到。

但是我们需要清楚,在前天进行的第一场比赛时,前10手柯洁的胜率其实是非常高的,但越往后,AlphaGo的胜率就逐渐慢慢提高了。

一开始比赛的赛时没有被拉开,对弈双方的时间差也一直维持在十几分钟左右。但随着战局的推进,柯洁扯头发的次数越来越多(头发越来越乱),面部的表情也越来越焦虑。

最终,让所有人都没有想到的是,开局2个多小时后,局面出现反转,柯洁渐渐处于劣势,而且力不从心。最终突然在下午1点37分主动投子认输,AlohaGo在中盘执黑子赢得胜利!随后进行了复盘。

在整个比赛过程中,古力曾着重分析了AlphaGo的厉害之处:

在预测大局的方面非常厉害,也就是在所谓的“虚着”方面更胜一筹。

通俗来讲,就是在棋子比较密布的某一区块上面,我们谁能猜到AlphaGo的落子结果;但在盘面比较虚的地方,例如棋子稀疏的下方,我们根本无法猜到。而AlphaGo就是在这种情况下,不知不觉地积累优势。

其实,早在AlphaGo与柯洁未开赛前,我们曾经提出一个脑洞大开的问题:AlphaGo会不会故意输给柯洁?

这个命题可以设定为存在两种情况:

第一个猜测被DeepMind创始人Demis以一个玩笑否认了:

这个建议太好了,看来我们以后也应该为AlphaGo安装一些传感器与摄像头。你要知道,AlphaGo一定是会有弱点的。而柯洁据说也通过分析AlphaGo掌握了一些它的套路,两位选手是势均力敌的。

而第二个猜测,的确是DeepMind持续提升AlphaGo能力的一个方向,但目前来说,AlphaGo还做不到。

在在昨天的人工智能闭门大会上,DeepMind首席科学家Davis Silver已经非常清晰地解释了这个新一代AlphaGo的过人之处:

第2代“深度强化学习系统”AlphaGo Fan(共4代)共有12层卷积神经网络,而第4代AlphaGo(也就是与柯洁比赛的这一代)通过进行“自我学习”(监督学习与强化学习)已经训练出了40层神经网络(由策略网络与神经网络组成)。

在整个学习过程中,系统要对棋局进行图像扫描,分成无数个小块依次进行处理,最终构成整个全局观。具体来说,它可以近乎准确地判断棋盘上现有的棋子能给周围区域带来多大的影响力。

这个“全局观”,就是AlphaGo与人类最不一样的地方,也是古力在解说时特意强调的AlphaGo具备的一个能力:

策略网络,就是让AlphaGo先自己跟自己比,下个几万场,目的就是要“走对子”,选择最好的一步走,判断哪个策略最有效。

而在这个步骤结束后,继而形成价值网络,用来负责估算胜率。“策略网络”能够对所有落子位置进行概率分布,然后再将这些估算出的信息投入到蒙特卡罗搜索树中,推算出胜率最高的一些算法。

换句话说,就是每走出一步,价值网络就是通过这样的函数来预测未来的输赢,而不是静态地去考虑这步棋。

两者一前一后,就形成了AlphaGo的杀手锏——“在最后结果为‘赢’的前提下,去选择每一步最可行的路径”。

这也能解释为何AlphaGo在去年与李世石三番棋的第二局比赛中,狗的第37子被称为“牵一发而动全身”的一步棋。在赛后复盘后,人类棋手才发现这步棋完全决定了后面50步棋的下法。

照这样来看,层数越来越多的神经网络决定了AlphaGo学习的深度正在越来越大,这就相当于AlphaGo不管是在思考每一步策略,还是在判断胜率的精准度上都有了很大的提高。

如果要故意输给柯洁,不仅需要AlphaGo的自我学习能力,还需要获得柯洁这位棋手足够多的数据,因为获得固定的胜率需要他去“揣摩”柯洁的直觉。

从理论上来说,如果AlphaGo能通过自我学习来掌握柯洁足够多的数据,是有可能控制胜率的(几率会更高)。

但是这个决定三番棋胜局的关键第二场比赛,柯洁的主动投子认输,让我们再次见识到了AlphaGo的厉害之处。

柯洁对战阿尔法狗第二局中盘认输!Alphago为什么如此厉害?