德扑运气成分(虽然完败于德扑人工智能,人类牌手却靠“认怂”偷了几局)

“我跟它(AI)打就一直认怂。”北京千山剧影视传媒有限公司董事长、中国“龙之队”队员童舟这样向澎湃新闻(www.thepaper.cn)介绍他曾连胜德扑AI四场的“心得”。

虽然5月份在乌镇,围棋“当今第一人”柯洁将与AlphaGo上演围棋界人机对战的终极一战,但创新工场CEO李开复在4月5日断言柯洁毫无胜算,比起来,4月6日到10日举行的德州扑克人机大战表演赛尚有10%的可能成为人类历史上赢得人机对战的绝唱。

这场德扑表演赛由创新工场与海南生态软件园联合主办,比赛双方为由杜悦、许朝军、张淮、童舟、朱亚希、王天健共六位人类牌手组成的中国“龙之队”和李开复母校美国卡内基梅隆大学(CMU)开发的德扑人工智能系统Libratus,比赛奖金为200万元人民币。

4月10日中午,在海南澄迈的比赛场地,室外阳光明媚,室内人类收获了相当惨淡的赛果。在33000手牌后,6名牌手共计输给人工智能Libratus792327分,可谓完败。

但在个人战绩上,人类牌手还是创造了一些亮点的:点点网、啪啪创始人许朝军曾收获前三场连胜的“开门红”,而童舟自第三场结束,即第2比赛日中午向队友打赌必胜AI后,斩获了从第四场到第七场的四连胜。在个人最终战绩上,童舟也是输的最少的。

那么,是什么给了童舟信心,让他在三场之后撂下狠话的呢?童舟在接受澎湃新闻(www.thepaper.cn)专访时透露,他总结了第1比赛日后就找到了AI的几个漏洞,并不断示弱,引诱AI前来“偷鸡”,由此反败为胜。不过,AI每天都会修复前一天的漏洞,人类牌手只能重新开始寻找新的漏洞。

“跟AI完全不是在打德扑”

简单来说,德扑是玩家用自己手中的2张底牌和牌桌上的5张公共牌进行组合,选出5张凑成最大的牌型(各种牌型有固定的大小顺序,如5张同花顺比4张同样数字加一张单牌要大)。而牌桌上的5张公共牌分3个环节翻开,分别为翻牌(flop)、转牌(turn)、河牌(river)。在翻牌的不同阶段玩家都有加注的机会。

而最基本的下注策略有两种,一是诈唬下注(bluffing),又称为“偷鸡”,即以吓退对方盖牌为目的的加注;二是价值下注(value bet),即在手中的牌有把握比对方大的时候,以引诱对方跟注而赢得更多筹码为目的的下注。

童舟告诉澎湃新闻(www.thepaper.cn),他在第一天时完全按照和人类对战的方式和AI打,结果发现无论是诈唬还是价值下注都讨不到便宜,输得很惨。后来,他发现AI有一些漏洞,“也不完全是漏洞,更准确地说是一些套路。”

这些套路是指AI打牌会出现一些重复的模式,使人类有迹可循。童舟发现“AI河牌加注1/5底池的时候基本上是在偷鸡”,这样人类牌手就可以抓住这些机会。

不过,AI每天晚上都似乎会修复前一日比赛中出现的“漏洞”,改变风格。幸运的是,童舟在第二天也同样会抓到AI新的漏洞。

虽然这样能够有赢过AI的机会,但童舟也无奈地表示,这样完全不像是在玩德扑了,他所做的就是“由它在主导,跟着它的路子,慢慢的它的漏洞就会暴露出来,然后就利用这个误导它。”另一件令他无奈的事是,AI虽然会被人抓住“偷鸡”的机会,但它是个防守非常稳健的选手,“想让它输很难,你赢它赢不多,如果你想赢它很多就会输更多。”因此,童舟一直把底池控制得很小,不敢和AI“对飙”。

不过,尽管有这些可循的痕迹,“龙之队”队员依然称赞AI是个非常优秀的德扑选手,甚至超过了人类所能理解的打法。一方面,AI读牌方面的计算很强,“只要它觉得比你大一点点,它就会打价值(下注),只有国外一些顶级的牌手会这么做,很多中国人就过牌了。 ”童舟说道。

另一方面,AI下注非常大胆。有时候AI起手底牌很差,人类选手按照理性计算肯定会弃牌,但AI多次拿着很差的底牌(比如3和6)大胆冒进,结果在转牌或河牌阶段上演大逆转(河牌真的开出了一张6),令人类选手匪夷所思,拍案叫绝,仿佛AI真的能猜到未翻开的牌一样。

AI开发者:可能不会做多人德扑,一对一就是最好的

那么,德扑AI神乎其技的牌技究竟是基于怎样的算法实现的呢?它与实现围棋的AI路径有何不同?这次与人类对战的人工智能Libratus的开发者之一,美国卡内基梅隆大学(CMU)计算机系教授托马斯•桑德霍姆(Tuomas Sandholm)的博士生诺姆•布朗(Noam Brown)在接受澎湃新闻专访时说道,Libratus并没有使用时髦的深度学习,但在残局计算上下足了功夫。

事实上,世界范围内有好几个团队都扑在开发德扑AI,而加拿大阿尔伯塔大学的一个团队更是在今年1月初抢先发表论文,宣布他们的Deepstack成为首个击败人类牌手的德扑AI。诺姆承认,这些团队实现德扑AI的核心路径是相同的,都是一种名为“虚拟遗憾最小化”(counterfactual regret minimization)的算法。

但诺姆对他们的Libratus非常自信,认为它能在机器对战中完胜其他的德扑AI。这是因为,他们不仅充分在算法中运用了博弈论的知识,更将AI的残局计算能力大大强化了。“和围棋不一样,围棋是越下越简单的,残局阶段计算量更小。但德扑开到转牌和河牌阶段,局面更为复杂,存在的可能性更多。”诺姆说道。

值得一提的是,开发团队并没有使用深度学习训练机器。阿尔法狗在学习数千万张人类棋谱后才开始进入“左右互搏”的自我对弈阶段,在AI上称为强化学习(reinforcement learning)。而Libratus的开发者只是向它描述了德扑的游戏规则,就开始由它通过强化学习的方法自己摸索德扑应该怎么打。因此,Libratus的打法完全脱离人类经验,天马行空,在人类牌手看来十分激进。

Libratus接连在单挑中战胜中美德扑高手,外界都开始关心AI离掌握多人德扑还有多远。然而,诺姆却透露,他们可能并不会去做多人德扑。因为,在他们看来,多人德扑超过了纯粹竞技的范围,因此很难根据战绩来评估AI的水平。诺姆打了个比方,奥运会并没有超过两支队伍的比赛,“因为你无法控制别的对手相互之间的互动,就算你自己做出的选择是完美理性的,结果可能也体现不出来。”

桑德霍姆教授则笑着说,“为什么要玩多人德扑?一对一永远是最好的游戏!”。

尽管德扑AI代表的“高情商”、“会欺骗”、“会博弈”的人工智能打开了通往更多现实场景应用的大门,不过,在近期,桑德霍姆和诺姆团队还是会专注完善一对一德扑。“这毕竟是我们的招牌嘛。”诺姆说道。

“龙之队”稍有不服

除了博弈论和残局计算之外,此次的冠军Libratus还有一个秘诀:它会在每一个比赛日结束后回顾这一天的对战经历,找出曾被人类利用的“套路”,并自我清除。也正因为如此,“龙之队”的一位助理向澎湃新闻(www.thepaper.cn)透露,Libratus团队并未提供每天的比赛数据,这让人类团队每晚在复盘上花了更多精力,也更难通过数据来分析AI的打法,形成针对性策略。

上述消息人士说道,“龙之队”首次亮相就遭遇了AI。鉴于Libratus曾在1月份连续20个比赛日中击败了四名顶尖美国高手,因此他们原本就不抱有胜算,只是想尽力一搏,如果能有一名人类牌手侥幸领先,当然再好不过。然而,AI团队不提供比赛数据的做法令他们稍有不服。甚至,在第1个比赛日,桑德霍姆教授没有提供最后的胜负情况,因为一天的比赛运气成分很大,他并不想让“人类牌手打败AI”成为新闻噱头。该消息人士说道,“当然,即使提供给我们数据,大概也是输,但这样会输得更心服口服。我能感到他们非常希望AI赢,但双方在更平等的起点上,AI的胜利也会更令人信服。当然,整体来说,AI牌打得非常好,我们经常会对它的一些打法感到很佩服,确实很高明。”