gto가 궁금해서 찾아 보던 중, 개괄적으로 gto가 어떤 것인지 대충이라도 알 수 있도록 해 준 포스팅이 있어서 대충 번역해 보았습니다. 번역이 거슬리는 부분이 있는 것과 보기 ...

mobilebanner

조회 수 12563

추천 수 9

2016.10.13 10:05:32

gto가 궁금해서 찾아 보던 중, 개괄적으로 gto가 어떤 것인지 대충이라도 알 수 있도록 해 준 포스팅이 있어서 대충 번역해 보았습니다.

번역이 거슬리는 부분이 있는 것과 보기 이쁘게 올리지 못한 것은 양해해 주시기 바랍니다.

글 쓴 목적은 첫 문단에 나오니까, 대충 보시고 아니다 싶으시면 스킵하시면 되겠습니다.

2008년에 투플러스투에 올라온 포스팅이고, 아마 어디에 아티클로 올리려고 하던 것을 포스팅한 것 같아요. 도움되기를 바랍니다.

 

출처 : http://forumserver.twoplustwo.com/94/stoxpoker-com/understanding-game-theory-holdem-245479/

 

 

Understanding Game Theory and Hold’em, by Bryce Paradis and Douglas Zare

게임 이론의 이해와 홀덤

 

Game theory has become a popular, if somewhat misunderstood, topic for hold’em discussion. This article is intended to give you a fundamental understanding of what game theory optimal strategy is, how it works, and what its impact is on hold’em play. Before we begin on the article proper, however, we will start by reviewing some key definitions. These definitions are not necessarily the same as those used by all others.

요새 홀덤 토론의 주제로 게임 이론이 인기를 얻게 되었습니다. 그런데, 조금 잘못 이해되고 있는 측면도 있어 보입니다. 본 아티클에서는, 게임 이론 최적 전략 (GTO strategy) 이 무엇이고, 어떻게 작동하며, 그 것이 홀덤 플레이에 끼치는 영향은 무엇인지에 대해서, 본질적으로 이해해야 할 사항을 얘기해 볼까 합니다. 시작하기 전에, 몇 가지 기본적인 핵심적인 정의를 얘기해 볼 것인데, 다른 사람들이 사용하는 것과 똑같지는 않을 수도 있을 겁니다.

 

Optimal Exploitive Strategy: A strategy which yields the highest possible EV against your opponent’s strategy. For example, if in a game of rock-paper-scissors your opponent’s strategy is to choose rock every single time your optimal exploitive strategy is to pick paper every single time. The same is true if your opponent’s strategy is rock 50%, paper 25%, and scissors 25%.

최적의 약점 이용 전략(Optimal Exploitive Strategy): 상대방의 전략에 대해서 가능한 최대의 EV를 뽑아낼 수 있는 전략. 예를 들어, 가위 바위 보 게임에서, 상대방이 항상 바위를 내는 전략을 사용할 때, 우리가 취하는 Optimal Exploitive Strategy는 항상 보를 내는 것입니다. 상대방의 전략이 바위 50%, 보 25%, 가위 25%를 내는 것일 때에도, 마찬가지로 항상 보를 내는 것이 Optimal Exploitive Strategy가 됩니다.

 

Suboptimal Strategy: A strategy which performs worse than an optimal exploitive strategy. For example, if your opponent’s strategy is to choose rock every single time, choosing paper 50% and rock 50% is still a winning strategy. The EV of the paper-and-rock strategy, however, is less than that of the paper-only strategy. Therefore the paper-and-rock strategy is suboptimal.

최적에는 못 미치는 전략(Suboptimal Strategy): Optimal Exploitive Strategy보다는 수익이 덜 나오는 전략. 예를 들어, 상대방이 항상 바위를 내는 전략을 사용할 때, 보 50%, 바위 50%를 내는 전략은 수익을 내는 전략이 됩니다. 그렇지만, 이 전략은 항상 보를 내는 전략보다는 EV가 적습니다. 즉, 보 50%, 바위 50%를 내는 전략은 Suboptimal Strategy가 됩니다.

 

Game Theory Optimal (GTO): A strategy that yields the highest possible EV (or: “is optimal”) if your opponent always chooses the best possible counter-strategy. In a game of rock-paper-scissors the GTO strategy is to choose randomly from an equal distribution of paper, scissors, and rocks. If you play rock less often than paper, you will have less than ½ equity against an all scissors strategy. Similarly, you must play paper at least as often as you play scissors, and scissors at least as often as you play rock. As a result, you must play paper, scissors, and rocks with equal frequency to guarantee ½ equity against all strategies. So long as your opponent always chooses the optimal counter-strategy to whatever strategy you choose no strategy on your part can have a higher EV than this.

게임 이론 최적(Game Theory Optimal): 상대방이 가능한 최상의 대응 전략을 항상 사용하게 된다면, 그 것을 상대로 하여 가능한 최대의 EV(즉, 최적의 EV)를 내는 전략. 가위 바위 보 게임에서 GTO 전략은, 가위, 바위, 보의 비율을 동일하게 랜덤하게 내는 것입니다. 만약 우리가 보보다 바위를 적게 낸다면, 상대가 항상 가위를 내는 전략을 취하는 경우에 승률이 50%에 못 미치게 됩니다. 같은 맥락으로, 가위를 내는 만큼 보를 내야 하고, 바위를 내는 만큼 가위를 내야만 합니다. 결국, 상대가 취할 수 있는 모든 전략을 대상으로 50%의 승률은 보장받기 위해서는, 가위, 바위, 보의 비율을 동일하게 내는 전략을 수행해야 합니다. 어떤 전략을 취하더라도 상대가 그에 맞는 최적의 대응 전략을 수행하게 된다면, 위의 전략보다 더 좋은 EV를 내는 전략은 있을 수가 없습니다.

 

Exploitive Strategy: Any strategy which has a higher EV than GTO strategy against a particular opponent.

약점 이용 전략(Exploitive Strategy): 특정한 상대(특정한 전략을 사용하는 상대)를 대상으로 할 때, GTO 전략보다 더 높은 EV를 가지는 전략

 

Exploitable Strategy: A strategy which has less EV against some exploitive strategies than GTO strategy. All non-GTO strategies are exploitable.

약점이 있는 전략(Exploitable Strategy): Exploitive Strategy을 사용하는 상대에 대해서, GTO 전략을 사용하는 것보다 EV가 떨어지는 전략. 즉, 모든 비 GTO 전략은  Exploitable Strategy 전략이 됩니다.

 

When analyzing optimal, exploitive strategies, we treat an opponent’s strategy as a known. For example: “my opponent always chooses rock.” In reality, our opponent’s strategy is an unknown, and we often act on assumptions and observations in order to determine what we will treat our opponent’s strategy as. To determine a GTO strategy, we assume that our opponent always chooses the optimally exploitive counter to whichever strategy we try, rather than playing a fixed strategy.

optimal exploitive strategy을 분석할 때, 상대방이 취하는 전략을 알고 있는 것으로 상정하고 분석합니다. 예를 들어, ‘상대방은 항상 바위를 낸다’입니다. 그런데 실제로는, 상대방의 전략을 알 수가 없고, 그래서 상대방의 전략을 특정짓기 위해서 여러 가지를 가정하고, 또 상대를 관찰하게 됩니다. GTO 전략을 수립할 때는, 상대방이 특정한 하나의 전략을 사용한다고 가정하는 것이 아니라, 우리가 어떤 전략을 취하더라고 상대방은 항상 그에 대응하는 optimal exploitive strategy을 사용한다고 가정합니다.

 

Hold’em is a much more complicated game than rock-paper-scissors, and until the game is solved by computers no one will ever play against an opponent who always chooses a GTO (or: “unexploitable”) strategy. This is an important point, as a GTO strategy is not necessarily the strategy with the highest possible EV. For example, if our opponent’s strategy is rock-only then the GTO strategy of choosing randomly from an equal distribution of paper, scissors, and rocks has less EV than that of the paper-only strategy.

홀덤은 가위 바위 보 게임보다 훨씬 복잡한 게임이고, 컴퓨터로 이 게임을 완전하게 풀어내 버리기 전에는 어느 누구도 완벽한 GTO 플레이어와 게임할 가능성은 없습니다. 이 것이 중요한 점인데, GTO 전략이라고 해서 꼭 가능한 최대의 EV를 내는 전략인 것은 아닙니다. 예를 들어, 상대방이 바위만을 내는 전략을 취할 때, 가위, 바위, 보를 동일한 비율로 랜덤하게 내는 GTO 전략은 보만 내는 전략보다 EV는 적게 됩니다.

 

GTO play, however, still plays an important role in hold’em strategy. Even though a GTO strategy may have less EV an exploitive strategy, understanding what the GTO strategy is and being able to identify how our opponents’ strategy deviates from it can help you to better exploit your opponents. Further, understanding GTO strategy can also allow to be able to create balanced strategies which are difficult to exploit. These strategies can be used as a defense against tough opponents looking for an exploitive edge.

그럼에도, 홀덤 전략에 있어서 GTO 플레이가 차지하는 역할은 중요합니다. GTO 전략이 exploitive 전략보다 EV는 적더라도, GTO 전략이 어떤 것인지 알아서 상대방이 그 것에서 얼마나 벗어나는 지를 알아 낼 수 있게 되면, 상대방의 약점을 보다 잘 이용할 수 있게 될 겁니다. 더 나아가서, GTO 전략을 이해하게 되면, 약점이 없도록 밸런스가 잘 맞추어진 전략을 개발해 낼 수가 있게 됩니다. 이러한 전략은, 항상 약점을 이용하려는 까다로운 상대방을 만났을 때, 방어하는 용도로 사용할 수도 있을 겁니다.

 

In hold’em, as in many simple games such as rock-paper-scissors, a GTO strategy is often identifiable by finding an indifference point. What this means is that the GTO strategy will often distribute your actions in such a way that your opponent is indifferent to choosing between two actions. As a result your strategy is unexploitable.

홀덤에서는, 가위 바위 보 게임과 같은 단순한 게임에서처럼, 무차별점을 알아내면 GTO 전략을 수립할 수 있습니다. 무슨 말이냐면, GTO 전략은, 상대방이 둘 중 어느 것을 선택하더라도 결과가 같아지도록 액션을 배분하게 된다는 것입니다. 그래서, 이러한 전략은 약점이 없게 됩니다.

 

Although hold’em has not been solved, many half-street and full-street mini-games which model real hold’em situations have been solved. By understanding where the indifference points lie in different hold’em scenarios, you can identify your opponent’s deviations from GTO play and exploit your opponent maximally. At its most basic conceptual level hold’em is still a very simply game: rather than playing with a distribution of paper, scissors and rocks we play with a distribution of bluffs and not-bluffs. By understanding even just the simplest mini-games you can greatly improve your play.

홀덤은 아직 완전히 풀려지지 않았지만, 실제의 홀덤 상황을 모델로 하는 해프 스트리트(half-street)과 풀 스트리트(full-street) 미니 게임은 완전히 풀려져 있습니다. 여러 서로 다른 홀덤 시나리오에서의 무차별점이 어디인지를 알게 됨으로써, 상대방이 GTO에서 비껴나 있는지를 알 수 있고, 상대방의 약점을 최대한으로 이용할 수 있습니다. 가장 기본적인 개념 차원에서는, 홀덤은 아주 간단한 게임이라고 할 수 있습니다. 가위, 바위, 보를 액션에 배분하는 것 대신에, 블러프와 비블러프를 액션에 배분하는 것입니다. 가장 간단한 미니 게임 정도만 이해한다고 해도, 홀덤 플레이에 커다란 발전을 가져 올 수 있을 겁니다.

 

A common example of a half-street game would be one where we either hold hands that always win, or always lose if we see a showdown, and can either bet or check, and our opponent may only call or fold. If he calls, there is a showdown. This is often analogous to a river-betting scenario in real hold’em play where our opponent’s range is narrow and ours is polarized. By solving the mini-game we can see that the GTO strategy is to bluff an amount proportionate to the price we are laying our opponent on his call. For example, if we bet $1 into a $2 pot we are laying 3:1 by betting, and the GTO strategy is to bluff 25% of the time that we bet. Our opponent will be indifferent to calling or folding. As a result, we know that if we deviate from this strategy our opponent can exploit us by either always calling if we bluff more, or always folding if we bluff less.

해프 스트리트 게임의 통상적인 예라면, 쇼다운을 하게 되면 이기거나 지게 되고, 벳 아니면 체크만 할 수 있으며, 상대방은 콜 아니면 폴드만 할 수 있는 게임입니다. 이 것은 실제의 홀덤 게임에서의 리버 베팅 상황과 닮아 있는데, 여기에서 상대방의 레인지는 좁고, 우리의 레인지는 폴러라이즈되어져 있습니다(강한 것과 약한 것만으로 구성되어져 있습니다). 이 게임을 풀어보면, 상대방의 콜에 부여하는 팟 아즈에 해당하는 만큼의 비율로 블러프를 구성하는 것이 GTO 전략이라는 것을 알 수 있게 됩니다. 예를 들어, 우리가 $2의 팟에 $1을 벳하게 되면 상대방의 콜이 3 대 1의 팟 아즈를 가지게 되는데, 그래서 우리가 총 벳하는 것의 3 대 1의 아즈, 즉 25%만큼 블러프를 하는 것이 GTO 전략이 되는 것입니다. 이 때, 상대방이 콜하거나 폴드하거나 상관없이 상대방의 EV는 0가 되는 무차별점이 됩니다. 결국, 우리가 이러한 전략에서 벗어나게 되는 경우, 블러프를 많이 한다면 상대는 항상 콜을 하고, 블러프를 적게 한다면 상대는 항상 폴드를 함으로써 우리의 약점을 이용할 수 있게 됩니다.

 

Conversely, in this scenario the pot is laying us 2:1 on our bluffs, and so we become indifferent to betting or checking with our bluffs if our opponent calls 67% of the time. This is our opponent’s GTO strategy. If our opponent deviates from this strategy we can exploit him by always bluffing if he calls less, or by never bluffing if he calls more.

거꾸로, 이 시나리오에서 우리가 블러프를 할 때의 팟 아즈는 2 대 1이며, 상대방이 67%를 콜하게 된다면 우리가 벳을 하나 체크를 하나 우리의 EV가 0가 되는 무차별점이 됩니다. 이 것이 상대방의 GTO 전략이 되는 것입니다. 상대방이 이러한 전략에서 벗어나게 되는 경우, 콜을 적게 한다면 항상 블러프를 하고, 콜을 많이 한다면 블러프를 전혀 하지 않음으로써, 우리는 상대방의 약점을 이용할 수 있게 됩니다.

 

If our opponent deviates from GTO strategy in the previous example, the optimal exploitive strategies of either always folding or always bluffing have higher EV than any exploitive strategies which involve bluffing or folding less than 100% of the time. Weak opponents are weak not only because they choose exploitable strategies so often, but because we can also make such large deviations from indifference points without them adapting to exploit us.

앞의 예에서 상대방이 GTO 전략에서 벗어나게 되는 경우, 블러프나 폴드를 100%보다 적게 해서 이익을 얻는 어떤 exploitive strategy보다도, 항상 폴드하거나 항상 블러프하는 optimal exploitive strategy가 더 좋은 EV를 가집니다. 위크한 상대라는 것은, 자신들이 약점이 있는 전략을 자주 사용해서이기도 하고, 우리가 GTO 전략에서 벗어나더라도 우리의 약점을 이용할 만큼 그들이 대응을 하지 못하기 때문에 또한 위크한 것입니다.

 

Not all GTO decisions involve finding an indifference point. For example, say we are playing a variant of rock-paper-scissors where there is a fourth option to choose dynamite, which beats everything. The GTO strategy is to choose dynamite-only. Your opponent, however, may still select a dominated strategy by choosing either paper, scissors, or rock. Similar circumstances arise in hold’em, for example, when the nuts is such a large portion of our total range that we are unable to bluff often enough to make our opponent indifferent to calling or folding.

모든 GTO 결정에 무차별점이 이용되는 것은 아닙니다. 예를 들어, 가위 바위 보 게임을 변형한 게임이 있는데, 여기에서는 다이너마이트라는 네번째 옵션이 있고, 이 것은 어떤 것이라도 다 이긴다고 해 봅시다. 이럴 때의 GTO 전략은 항상 다이너마이트를 선택하는 것이 됩니다. 그런데, 그럼에도 상대방은 가위나 바위, 또는 보만을 선택하는 항상 지는 전략을 취할 수도 있습니다. 유사한 상황이 홀덤에서도 있는데, 예를 들어, 우리의 레인지의 상당 부분이 넛이고 블러프는 적어서, 상대방이 콜하거나 폴드하는 것에 상관없는 무차별점에 맞춘 블러프 구성을 할 수 없는 경우입니다.

 

What this means is that while a GTO strategy can never be exploited, and can therefore never be a losing strategy in hold’em (if there is no rake), your opponents can still make dominated strategy decisions which will cause them to lose, and you to win. Therefore, while GTO strategies in hold’em are often suboptimal, the prospect of these “invincible strategies” still hold some exciting implications for a savvy student of game theory, particularly at the highest levels of play.

이 것이 의미하는 바는, GTO 전략은 약점이 없어서 이용당할 수도 없고, 그래서 홀덤에서는 (레이크가 없다면) 절대로 지는 전략이 될 수가 없는데, 그럼에도 상대방은 지는 전략을 선택함으로써 지게 되고 우리는 이기게 된다는 것입니다. 그래서, 홀덤에서의 GTO 전략은 보통은 최적의 전략에는 미치지 못하지만, 그럼에도 특히나 가장 높은 단계에서 플레이하는 게임 이론을 잘 아는 학생들에게는, 이러한 '질 수 없는 전략'이라는 모습이 꽤나 설레이는 무언가를 가지고 있는 것으로 비춰지는 것입니다.

 

A tough opponent is only tough, after all, because he or she chooses makes far fewer suboptimal strategy decisions than soft opponent. An extraordinarily tough opponent will have an extremely refined capacity for dynamic play. If you choose a strategy of rock-only, he or she will quickly recognize it and choose paper-only, and so on. Such players will quickly identify trends in your play, or even make pre-emptive assumptions about your play, which may allow them to exploit your non-GTO strategies with unnerving frequency and accuracy.

상대하기 어려운 상대라는 것은, 소프트한 상대들보다 suboptimal 전략 결정을 훨씬 적게 하기 때문에 상대하기 어려운 것 뿐입니다. 정말로 까다로운 상대는, 유연하게 플레이하는 능력이 극도로 잘 다듬어진 상대입니다. 우리가 바위만을 선택하는 전략을 취할 때, 그들은 그걸 빨리 알아채고 보만 선택하는 전략을 취합니다. 그러한 플레이어들은 우리가 하는 플레이의 트렌드를 빨리 파악하거나, 우리의 플레이를 미리 짐작하기까지 하면서, 우리가 불편함을 느낄 정도로 정확성을 가지고 빈번하게 GTO 전략에서 벗어난 우리의 약점을 이용합니다.

 

It is appealing to think that by selecting a GTO strategy, our opponents could only lose. However, even the strongest opponents have exploitive (and therefore potentially-exploited) strategies in their play, and hold’em is, after all, a game of incomplete information. If you are playing against an extremely tough opponent who you know uses a strategy analogous to paper 33%, scissors 20%, and rock 47%, you would be foolish to attempt a strategy of paper-only. By definition of your opponent’s toughness, your opponent will quickly adapt to exploit you. By understanding where the indifference points lie, however, and by making small deviations from them, you can still play exploitatively. Even the toughest, most cut-throat opponents are not clairvoyant, after all, and if you elect an exploitive strategy of paper 40%, scissors 30%, rock 30% how are they to know?

우리가 GTO 전략을 선택하게 되면 우리의 상대들은 질 수 밖에 없을 것이다고 생각하는 것은, 호소력이 있어 보입니다. 하지만, 가장 강하다고 할 수 있는 상대조차도 약점은 있고, 그래서 이용당할 수 있으며, 결국 어찌하더라도 홀덤은 정보가 충분하지 않은 불확실의 게임인 것입니다. 극도로 까다로운 상대와 게임하는 경우에, 그가 가위 20%, 바위 47%, 보 33% 정도 선택하는 전략을 사용하는 것으로 알고 있더라도, 어리석게도 우리는 보만 선택하는 전략을 시도하게 될 수도 있을 것입니다. 상대하기 까다롭다는 정의 그대로만을 따른다면, 상대는 우리의 약점을 이용하기 위해서 재빠르게 대응할 것입니다. 하지만, 무차별점이 어디인지 알고, 거기에서 조금만 벗어나게 플레이한다면, 우리는 여전히 상대의 약점을 이용하는 플레이를 할 수 있게 됩니다. 아무리 까다로운 상대라도 예지력이 있는 것은 아니며, 우리가 가위 30%, 바위 30%, 보 40%를 선택하는 전략을 사용한다면 그걸 어떻게 알겠습니까?

스크랩

bookbanner

댓글 수

 

24

2016.10.13 10:07:31

2016.10.13 10:22:34

2016.10.13 12:18:26

2016.10.13 13:53:38

@포커로봇

2016.10.13 13:53:39

@포커로봇

2016.10.13 12:31:23

2016.10.13 17:50:48

2016.10.13 18:53:02

2016.10.13 20:16:17

2016.10.18 07:31:44

2016.10.19 21:53:42

2016.11.29 00:34:57

2016.12.14 23:41:43

2017.02.10 22:32:30

2017.02.13 17:48:41

2020.01.09 02:48:50

2020.08.02 14:19:11

2021.04.09 00:18:10

댓글 작성은 로그인이 필요합니다.

클릭 시 로그인페이지로 이동합니다.

글 수

 

1,279

검색

Copyright 2014. Pokergosu.com all rights reserved.

SUPPORT : [email protected]

한국 지역 게시글 중단 요청 : [email protected]

마케팅 대행사 - (주)에브리봇 서울특별시 서초구 강남대로 369 12층

POKERGOSU