编辑:xiaochun 2017-05-31 09:44:16 来源于:IT之家
在人机大战2.0中,AlphaGo轻轻松松的将柯洁以3:0的成绩KO了。而在战胜世界第一的人类后,deepmind团队也宣布了AlphaGo也将退出棋坛,因为以后的战斗都没什么意义了。而很多人则比较好奇,如果AlphaGo和自己对战的话,那么结果又是怎样的呢?而deepmind团队就在近日放出了20局AlphaGo的自战棋谱,告诉大家,什么叫“狗咬狗”。
“白狗”与“黑狗”的恶战
Alphago自从诞生以来,主要通过自我对弈左右互搏不断提升水平。和李世石对战的版本已经自我对弈了超过3000万盘,而和柯洁对战的版本恐怕早已左右互搏了上亿盘。此番公布的50盘AlphaGo自战都是慢棋,1-2分钟一步,应该说实力上和与柯洁对战的版本相同,所以很具有代表性。
“狗咬狗”会发生什么?可以肯定的是,其结局不是以拔电源告终,而是同样互有输赢,输棋的一方也并不是先死机的那个,在很大程度上是决定于手里棋子的颜色。在AlphaGo的50局自战中,执白的一方——俗称“白狗”赢了38盘,胜率接近80%,相当惊人。在人机大战第二局中,柯洁执白曾经把局势导入到很混乱的局面,他自称一度看到了机会,在发布会上,他主动申请第三局执白,希望能够复制第二盘的格局,因为传闻AlphaGo执白棋的胜率会到55%。
但其实这终究不是一个概率学问题,AlphaGo自战中“白狗”胜率惊人也并非因为运气好,而是涉及到中国围棋规则中的贴子(指先手一方补偿给后手一方,确保黑白开局时局面均衡的保障),在人类高手看来,黑贴3又3/4子对黑棋来说负担有点重,导致黑棋的行棋趋向于激烈化。如今看来,AlphaGo的自战对局也证实了这一点,而且表现出来的差距远比人类对局明显,根据大量职业比赛的实战结果统计,中国规则下人类职业棋手黑棋的胜率大概在47%。在棋力已入化境的AlphaGo看来“黑狗”胜率太低,所以或许中国规则中关于贴子的规定该有所改变了。
“狗咬狗”中人类被毁掉的“三观”
AlphaGo的50局自战棋谱,对于职业棋手来说,可是珍贵的“武功秘籍”,如同当年王重阳走后留下的一部九阴真经。但是这本秘籍却让人大跌眼镜,“三观”尽毁,因为如果按照AlphaGo的套路,这么多年的围棋可能真的是白学了,要不就是学了个假围棋。
首先是“套路观” 。众所周知,下围棋是有是定式的,有套路的。AlphaGo的套路是什么?就是没套路。在这50盘对局中,AlphaGo几乎没有摆完一个人类常见的定式,要么是开了个定式的头,但走两步就脱先(各走各路,你走一步我不理,我走一步你当看不见)了,等什么时候想起来再看情况再出招,要么是直接忽略人类定式大全下出全新下法——可见人类围棋史上总结的各类定式,绝大多数AlphaGo都是不认同的,这也说明了定式其实是人类围棋的“过拟合”——为了得到一致假设而使假设变得过度严格。
其次是 “ 战斗观 ” 。 如果你懂棋,那么AlphaGo自战棋谱恐怕会让你不敢直视,如果你不懂棋,那么设想一下,“狗咬狗”的画面是黄药师大战欧阳锋,而“狗咬人”则是黄药师戏耍柯镇恶。如果人类高手对局的对抗激励程度是10,AlphaGo自我对弈的激烈程度起码是100。全局性攻杀,大规模转换,反复的劫争在狗狗的自战谱中比比皆是,这样看和人类棋手对弈时求稳的假象只是巨大优势下简明取胜的策略而已,就像老虎和狮子争霸那一定是打得天翻地覆,老虎跟人打随便挠两下就结束战斗了。所以像柯洁与AlphaGo第二盘那样的全局混战在人类眼中可能是非常复杂激烈,人类会有机会,但在AlphaGo看来其实都是小把式。
再有是“目标观”。 AlphaGo是实现“小目标”的坚定执行者,尽管厮杀过程极其惨烈,但大部分情况下,激战结束双方各自收兵轻点棋盘上的累累尸骨划定疆域,就会发现其实双方的差距也就是半目或者一目半而已。50局自战谱如果正常收完官子有约一半会以半目胜负收尾,可见AlphaGo掌控局势的能力。而且在细微局面下AlphaGo的官子也不会出现和人类对弈时那种不断退让的情况。----比如本次人机大战第一局,AlphaGo在开局领先后稳稳收兵最终只赢了1/4子,可以简单理解为AlphaGo并不在乎赢多少,只在乎赢没赢,它会在任一局面下寻找当前胜率最高的一点,而且AlphaGo这种胜率就像GDP制约达康书记一样牵着AlphaGo,它的每一个选点都是当前局面胜率最高的一点(它自己认为的),所以才会经常出现在一个局部走了几步突然就不走了,脱先到另外一个地方走几步,然后又回来了之类的前后不连贯的情况。
自相残杀后留下“打狗秘籍”?
既然拿到了“武功秘籍”,勤加修炼是必然,但能“以其人之道还治其人之身”吗?说得深一点,能实现人类围棋的大跃进吗?
人类围棋的知识体系和AlphaGo完全不同,一个是由局部到全局的整合,一个是直接基于全局胜率选择每一步棋的最佳选点。由于存在这样根本性的差异,人类很难真正学会AlphaGo布局阶段那些匪夷所思的脱先、打破定式的下法。再有,AlphaGo中后盘在激战中的计算深度,远远超过人类大脑所能达到的限度——可以简单粗暴的理解为“狗”在复杂战斗中能把未来100步棋的最优解找出来,而人类远远不能。
但“秘籍”不是废纸,人类围棋发展的套路,就是每次都是出现一个天才,大幅度拓展大家的思路,让围棋发展到一个顶峰,然后出现了“过拟合”,大家的棋都局限在一个地方,直到下一个天才出现再次打破常规。以往这个角色是道策、秀策、吴清源,而如今,可能就是穿越千年而来,提前告诉我们1000年后的围棋该如何下的AlphaGo。
发表评论
共0条
评论就这些咯,让大家也知道你的独特见解
立即评论以上留言仅代表用户个人观点,不代表系统之家立场