德州扑克GTO和剥削
(Jonathan Little)
像井字旗、跳棋和国际象棋这样的游戏,游戏的构成相对比较单一(比如棋子都在棋盘上,棋子的操作局限于前进到周围某一格,完全没有运气成分等),所以人们可以很直观地理解计算机为什么可以通过数学来破解这些游戏。但德州扑克不一样,德州扑克的游戏过程中,未知的信息太多(比如公共牌是未知的,对手的下注尺寸是未知的,有运气成分等),所以很多人不太能理解计算机是如何去破解德州扑克的。
在继续今天的文章之前,我们应该先说一下提到的“破解”。这里说的破解(solve),简单说就是用数学去预测,这也是为什么会把线上扑克使用的工具叫做“solver”。已经被破解的游戏,在假设两个玩家都做出正确的决策的情况下,其结果(赢、输或平局)可以从任何位置正确地预测。这个概念通常适用于抽象策略游戏,尤其适用于信息完整且没有运气成分的游戏(比如我们前面说的跳棋和国际象棋)。
但实际上,只要计算能力和时间足够,即使是最复杂的游戏,也可以通过数学和博弈论(Game Theory,也就是游戏理论)来解决。
于是就有了游戏最佳理论,也就是GTO(Game Theory Optimal)。GTO策略非常强大,因为它要么让你和对手平局(当对手采用相同策略时),要么让你获胜(当对手采用其它策略)。
那些比无限注德州扑克更简单一点的游戏,比如有限注德州扑克,在几年前已经被破解了,其实现在无限注德州扑克也接近破解了。2017年,卡内基梅隆大学开发的扑克机器人Libratus以每100手牌盈利超过14个大盲的成绩击败了四名最优秀的德州扑克单挑玩家。盲注级别是$1/$2,每100手牌能够盈利28刀,已经是难以置信的高胜率了。
有些玩家可能没法理解机器人是怎么知道什么时候该诈唬的,但实际上,我们在讨论博弈论的时候,诈唬是一种很常被讨论的策略。例如,你发现自己在河牌圈的范围常常是两极化的,也就是强牌特别强,垃圾牌特别垃圾;而对手的范围是比较平均的,也就是他范围里都是边缘牌,这些牌会输给你范围里的强牌但又可以打败你范围里的垃圾牌。在这种情况下,范围两极分化的玩家可以下注,把下注尺寸控制到让对手获胜的概率和他的底池赔率一样,这样范围两极分化的玩家就会(平均来说)赢到底池。
什么意思呢?
如果你知道你的范围由67%的强牌和33%的诈唬牌组成,那么你下注的尺寸要让对手有33%的概率获胜。
在这种情况下,一个和底池大小一样的下注尺寸会让对手的底池赔率是2:1(33%)。所以,当你的范围两极化,不管对手怎么打,一个和底池大小一样的下注会让你(平均来说)拿下底池。
如果你的范围是83%的强牌和17%的诈唬牌,那么当下注尺寸是底池的1/4时,会给对手5:1的底池赔率,这时候你就会(平均来说)赢得底池。由此产生了一个有趣的概念,你的范围里的诈唬牌越多,你的下注尺寸就越大。当你的范围是51%的强牌和49%的诈唬牌,那你就可以下注底池的24.5倍,不过几乎没人会这么做。
如果你有在使用solver,你会发现一些反复出现的模式,或者说规律。例如,当你要决定在翻牌圈用什么样的牌c-bet时,你主要关心的问题时你的范围和对手的范围对比起来怎么样。如果你的赢率有优势(意思时你的范围在翻牌圈有着比对手要高很多的赢率),那么在你范围里的大部分,你应该高频率小尺寸下注。
假设你没有赢率优势,如果你的范围比较两极化(由牌力强的成型牌和一些听牌组成),那么你应该低频率用较大的尺寸下注;如果你的范围由边缘型成牌和垃圾牌组成,那么你应该过牌。通过使用这些知识,你可以发展出一个系统,让你在任何情况下都能大概知道自己应该使用什么样的下注和过牌策略。
虽然GTO策略非常强大,但它只能用在世界顶尖的牌手身上。如果你的对手牌技很烂,那你应该去利用他们的错误;如果你在他们身上使用GTO策略,那基本上就是送钱给别人。
被动剥削,指的是你使用GTO,你的盈利来自于对手犯的错误;主动剥削,指的是你偏离GTO,主动利用对手的错误。当你偏离GTO策略,把从对手身上获得的盈利最大化,这就是最优剥削策略(maximally exploitative strategy)。
虽然有的时候你很难识破对手犯了什么具体的错误,但很多时候其实很容易看得出来。打个比方,很多小型级别玩家几乎不会在河牌圈诈唬,所以如果你已经和对手打到河牌圈,对手经常过牌-加注的话,你应该弃牌,除非你有坚果牌。还有一些玩家,他们诈唬的频率太高了,你拿到任何的边缘型成牌都可以每一街都跟注他们。以上两种都是主动剥削对手的例子。
使用最优剥削策略要面临的问题是,你对于对手的评估可能不正确。你可能会认为对手不怎么会诈唬,但实际上他经常诈唬,这时候面对他的下注你弃牌的话,你就是给别人送钱了。如果你认为对手诈唬频率很高,然后你就用边缘型成牌在每一街都跟注,最后发现对手几乎不怎么诈唬,这也是送钱。如果对手很快发现你在使用最优剥削策略,然后相应地调整策略,你可能会亏损更多。
这时候,假设你对于对手的评估是正确的,使用GTO策略就会让你摆脱这个困境,但对手毕竟不是顶尖牌手,使用GTO策略从长期角度来说会让你的盈利变少。所以,在你能够非常正确地识别某个确切对手的错误之前,比较明智的办法是,把多数玩家会犯的错误考虑在内,制定出一个基本且全面的策略。