人工智能战胜顶尖牌手到底意味着什么?
本篇文章共1100字,读完只需3分钟
它会帮助你对德州扑克和AI的联系产生新的认知
编者有话说:
在本文即将发布的时候,我们和广大德扑爱好者一样,听到传言——6月1号之前所有德州扑克线上游戏平台或将被关闭。
被关闭的理由似乎不难明白——传闻中提到“主要由系统自动按照概率性分配方式决定对局结果”强调了德扑游戏中的运气成分,说得通俗点儿就是“赌博成分”。
关于德扑游戏是不是赌博的争论由来已久。作为一个理性思考的公号平台,我们暂且不下结论,而是希望跟大家分享一件有趣的事——机器人(人工智能)战胜顶尖牌手。
故事的来龙去脉
2015年,加拿大阿尔伯塔大学开发的“仙王座 (Cepheus)”扑克人工智能彻底攻克了有限注德州扑克游戏。(译者注:有限注德州扑克相比在中国流行的无限注德州扑克来说,数学模型更加简单。)
2016年底,国际扑克联合会派出了33名职业牌手与无限注扑克人工智能DeepStack对决(此AI由加拿大阿尔伯塔大学、捷克查尔斯大学和捷克理工大学合作开发),后者在44,852手牌的对决中以492mbb/g(milli-big-blinds per game,即每场一千大盲盈利,用于衡量扑克玩家的水平表现,通常认为此指标达到50就是职业玩家的门槛)的平均赢率胜出。
去年早些时候,匹兹堡超级计算机中心开发的扑克人工智能Libratus则高举高打,邀请了扑克圈内数位顶级大咖,先是在媒体上狠狠造势, 继而在为期一周的单挑比赛中将他们完全碾压,并赢得了176万美金。(译者注:李开复老师曾在去年夏天把Liberatus引入中国,化名“冷扑大师”,毫无悬念的胜出了所有对决。)
为什么要研发扑克人工智能
不知道各位有没有想过,人工智能打败人类的意义是什么?这些专业机构为什么要花费几十亿美金开发扑克人工智能?这背后的原因也许不仅仅是因为好玩。
扑克游戏不像围棋,双方落子信息完全透明。不完全信息博弈游戏的理论架构里蕴含了极为复杂的原理和变量,一旦理论研究获得突破,这种复杂程度的决策技术将在真实世界的应用中发挥巨大的威力。单单是网络安全产业就将在2021年前投入将近960亿美金在机器学习领域的开发与研究中。
学术与产业视角下的德州扑克,是交易和技术的完美子集
“机器学习”指的是在不需要额外编程的情况下,人工智能可以自主更新与学习,并能从错误中自动修正策略。一旦开始运行,机器人就会开始自学和进步。这就是为什么扑克这样一种基于不完整信息进行博弈,同时又涉及人类情绪因素的游戏,适合作为开发人工智能的重点研究模型。
在Libratus和人类对战的那一周里,它每晚都会针对每一手牌进行分析并获得信息与结果,并在不需要人类干预的情况下计算接下来的策略。它有200个GPU和274T的内存来进行计算,比普通电脑快30,000倍。
这个过程可以应用到其它高风险、需要决策和不断学习改进的情景下,比如商务谈判、高频交易,乃至和所有与计划、策略相关的领域,比如商业、金融、军事、政府政策,甚至医疗等等……
诈唬同样也是谈判中的关键技巧。想象一下,也许有一天,人工智能可以帮你跟房屋中介和手机运营商等谈判和砍价,只要下一个手机APP就能统统搞定。
德州扑克:竞技or赌博?
看完扑克AI技术的最新发展,我们再回到文章开头,似乎就能对德扑的定义产生新的认识。在单局游戏中,德扑或多或少存在一定的运气成分,但从长期来看,它实际上是一个基于数理统计和逻辑分析的博弈竞技。人工智能战胜顶尖牌手,是否已经证明了德扑不仅仅是“主要由系统自动按照概率性分配方式决定对局结果”的游戏呢?相信你的心中 已经有了自己的答案。
如果你是那种会害怕机器人入侵的保守派,我建议你先别慌。目前,Libratus这种人工智能运行起来依然极其昂贵;虽然从理论上来讲,它可以用来执行打扑克之外的任务,但距离机器人决定谁来统治世界还有好长一段路要走。