조회 수 2318
추천 수 9
2024.06.13 07:59:35
원본 :
---
오늘은 포커 사고의 5단계와 그것이 어떻게 GTO와 연결되는지, 레벨링과 밸런싱에 대해 이야기해보겠습니다.
아래는 이미 유명한 포커 사고의 5단계입니다.
레벨 0: 생각하지 않음.
레벨 1: 내가 무엇을 가지고 있는가, 즉 내 카드가 무엇인가? (페어, 스트레이트, 플러쉬 등)
레벨 2: 상대방이 어떤 핸드를 가지고 있는가?
레벨 3: 상대방이 내가 무엇을 가지고 있다고 생각하는가?
레벨 4: 상대방이 '내가 그들이 무엇을 가지고 있다고 생각하는지' 에 대해 어떻게 생각하는가?
레벨 5: 상대방이 내가 그들이 내가 무엇을 가지고 있다고 생각하는지 어떻게 생각하는가?
우리는 항상 상대방보다 한 단계 앞서고 싶어합니다.
우리가 펍이나 데일리에서 만나는 대부분의 상대방은 레벨 1 플레이어일 것입니다. 그들은 자신이 가진 핸드와 그 세기에 대해 생각합니다.
따라서 우리가 단순하게 레벨 2 사고를 시작하여 그들이 무엇을 가지고 있는지 생각한다면, 우위를 점할 수 있습니다.
(*옮긴이의 말 : 우선 이러한 띵킹프로세스의 5가지 레벨을 다룬 추가적인 article을 첨부합니다. 레벨 3 정도 까지가 사람이 쉽게 이해할 수 있는 과정이며 레벨 4~5의 상호 반복이 우리가 흔히 알고 있는 GTO포커의 영역입니다. 나는 네가 내가 무슨 생각을 하는지를 생각하는지를 생각한다...
https://www.pokerdiaries.net/levels-of-poker-thinking/
https://www.blackrain79.com/2020/01/outsmart-your-opponents-in-poker.html
이론 상으로는, 우리가 완벽하게 딱 한단계만 상대방을 앞설 때 상대방을 압도할 수 있습니다.
레벨 2 사고를 하는 포커를 하게 되면 레벨 1 사고를 하는 대상의 핸드를 리딩하여 익스플로잇 할 수 있으며,
레벨 3 사고를 하는 포커를 하게되면 레벨 2 사고를 하는 대상으로 포지션 및 레인지를 이용한 블러핑을 할 수 있으며, 슬로우 플레이나 트랩 등을 이용하여 익스플로잇 할 수 있습니다.
하지만 만약 레벨 3 사고를 하는 포커를 하는데 레벨 1 사고를 하는 상대방을 만나면 오히려 말릴 수도 있는것이, 상대방은 우리의 레인지고 뭐고 상관하지 않고 맞으면 콜을 따기 때문입니다. 콜링 스테이션에게 블러프를 해서는 안된다는 유명한 말이 그 대표적인 예시입니다.)
이제 이것이 GTO와 어떻게 연결이 되는지 간단한 모델을 가정하여 설명해봅시다.
헤즈업, 리버 상황에서 팟은 100$이고 남은 스택도 100$입니다.
Aggressor는 OOP에서 밸류와 블러프만으로 이뤄진 폴라(양극화)된 레인지를 가지고 있습니다.
쇼다운에서 밸류는 항상 상대방을 이기고 블러프는 항상 집니다.
Defender는 IP에서 블러프캐쳐를 가집니다. 이는 Aggressor의 블러프를 항상 이기며 밸류에는 항상 집니다.
(또한, 일부 마른 드로우를 가지고 있습니다.)
그러면 이제 Aggressor가 어떤 밸류를 배팅하고, 체크해야 하는 지에 대해 생각해볼 수 있습니다.
과장된 하나의 가정을 시작점으로 하여, 이제 양쪽이 서로 사고방식을 수정하는 과정을 따라가보도록 하겠습니다.
가정 : Agressor는 모든 밸류를 베팅하며, 블러프를 체크합니다. 즉, 체크 range에는 밸류가 없으며 이는 IP의 모든 배팅에 폴드합니다.
(*옮긴이의 말 : 이건 위에서 말한 level 1 사고방식과 유사합니다. 상대방은 고려하지 않은 채 이 보드에서 자신이 가진 핸드의 세기만으로 베팅하는 것입니다.)
Step 1:
Defender가 Aggressor가 리버에서 체크한 후 항상 폴드하는 것을 인식하기 시작합니다. Aggressor가 모든 밸류 핸드를 베팅하고 있다면, Aggressor의 체크 range에는 value hand가 없기 때문입니다. Defender는 실패한 드로우로 리버에서 항상 블러프하고, 블러프 캐처로 체크합니다. 이는 Defender가 조정을 통해 Aggressor를 exploit하는 과정입니다.
(*옮긴이의 말 : 이건 위에서 말한 level 2 사고방식과 유사합니다. 상대방의 액션을 통해 핸드를 유추하고, 이에 따라 행동하는 것입니다)
Step 2:
Aggressor가, 자신이 리버에서 체크하면 Defender가 블러핑을 많이 한다는 것을 인식하기 시작합니다. 이제 Aggressor는 리버에서 일부 value hand를 체크하고 블러프를 유도하여 더 높은 기대값을 생성할 수 있다고 계산합니다.
(*옮긴이의 말 : 이건 위에서 말한 level 3 사고방식과 유사합니다. 일부 밸류를 체크함으로서 level 2 사고를 하는 상대방에게 자신이 Air를 가진 것처럼 행동하여 블러프를 유도하는 것입니다.)
Step 3:
Defender가 Aggressor가 체크한 후 더 이상 폴드하지 않는다고 의심하기 시작합니다. (일부 value hand가 체크 range에 들어갔기 떄문입니다.) 따라서 Defender는 전체 블러프를 줄이기 시작합니다.
Step 4:
Aggressor가 Defender가 체크할 때 블러핑을 자주 하지 않는다는 것을 인식하고, value hand을 체크하는 것이 더 이상 EV를 극대화하지 않는다는 것을 깨닫습니다. Aggressor는 대부분의 value hand를 베팅 범위로 전환합니다. 하지만, 모든 value를 배팅하면 Defender가 다시 Step 1에서 처럼 자신을 이용할 것을 알기 때문에 일부를 계속 체크합니다.
Step 5:
다섯 번째 단계에서는 Defender가 다시 한 번 Aggressor가 체크한 후 너무 많이 폴드한다는 것을 인식합니다. 비록 전보다 자주 하지는 않지만 말이죠. Defender는 리버에서 체크할 때 블러핑을 시작하지만, 전만큼 공격적으로는 하지 않습니다.
*Step 6~9은 반복되고 장황한 내용이라 생략합니다. 결국 서로가 상대의 전략을 파악하고 이에 따라 자신의 전략을 Exploit 적으로 수정한다는 내용의 반복입니다. 아래 그림을 참고해주세요
이것을 시각화 한 것이 다음 그림입니다.
각 연속적인 행동(Step 1 -> Step 2 -> Step 3-> Step 4)이 점점 더 중심, 즉 가운데 빨간 공에 가까워지는 것을 볼 수 있습니다.
이러다가 양 플레이어가 도달하는 가운데 빨간 점이 두 플레이어가 추가적인 exploit 기회를 찾을 수 없는 지점입니다. (밸류-블러프의 액션 빈도가 더 이상 공략하기 힘들도록 균형잡혀있음)
각 플레이어는 완전히 균형 잡혀 있으며, 현재 전략에서 벗어나더라도 상대방을 exploit 하지 못하기에 승률을 높일 수 없습니다. 게임 이론 용어로는 이를 내쉬 균형이라고 합니다. 이것을 포커로 치환하자면 양 측이 모두 완벽한 GTO포커를 구사하는 것이라고 할 수 있습니다.
-------------------------------------------
이런 이론적인 내용을, 조금 더 실용적으로 쉽게 풀어서 말하자면
Aggressor가 모든 value hand를 베팅하고 체크 range에는 넣지 않으면(=균형잡혀있지 않으면), 우리의 액션에 주의를 기울이는 사람에게 이용당할 수 있다는 것을 이해하는 것입니다. 이는 상대방이 우리를 exploit할 기회를 제공하며, 우리의 EV를 낮춰 이익을 줄입니다.
반대로, 상대가 균형잡혀있지 않다면 우리도 균형에서 벗어나도 괜찮습니다.
앞서 예시를 들었던 Step 1,2,3를 밟지 않는 상대방은 우리가 체크를 하여도 IP에서 블러프하지 않습니다.
이런 경우, 우리는 어떤 Value도 체크할 필요 없습니다. 그들은 우리의 배팅-체크 균형에 대해 관심이 하나도 없기 때문입니다.
그저 자신의 핸드가 원페어 같은 블러프 캐쳐여도 체크하고, 마른 드로우여도 체크합니다. (블러프 하는 것을 두려워합니다)
그러면 우리는 모든 밸류핸드로 베팅하고, 적당한 블러프를 하며, 상황에 맞지 않는 블러프나 마지널한 핸드는 그냥 체크하면 됩니다.
☆이것이 우리가 GTO에 매몰되지 않고 사고하는 방식입니다☆
솔버는 훌륭하지만 출발점일 뿐이며, Exploit적인 부분에서 우리는 더욱 흥미롭고 높은 EV를 가진 전략을 구사할 수 있습니다. 우리가 GTO 기반의 전략을 언제, 어디까지 고수할 지 생각해봐야 한다는 것이 오늘의 결론입니다.
우리가 Smaller game (펍, 데일리) 등에서 플레이할 때 조금만 주의를 기울이고 전략을 수정하면 상대방을 exploit 할 수 있는 기회가 매우 매우 많습니다. 반대로, 우리보다 더 낫다고 생각되는 상대방을 대상으로 할 때는 GTO에 더욱 가까이 플레이하여 그들이 우리를 관찰하고 exploit 할 수 있는 기회를 줄이는 것이 훨씬 나은 선택지입니다.
-
끝! 읽어주셔서 감사합니다 이해 안가시면 댓글 ㄱㄱ
스크랩
댓글 수
6
댓글 작성은 로그인이 필요합니다.
클릭 시 로그인페이지로 이동합니다.
2024.06.13 09:18:20
쌍검술내용이랑 비슷하다
2024.06.13 14:07:55
@미친놈이네
GTO의 빛나는 갑옷에는 10%의 구멍이 존재한다
누군가가 거기를 집중적으로 찌르면 GTO의 갑주는 결국 침몰할 것이다
2024.06.15 15:27:01
@닉변문의
머꼴
2024.06.15 23:06:17
@닉변문의
쑤컹
2024.07.10 17:21:08
이거 콘스탄틴님이 유튭으로 좀 상세설명 한거 있긴 함
이해하기 쉽게 설명해주심
2024.07.30 12:49:20
혹시 여기서 나오는 마른 드로우가 어떤 의미인 지 알 수 있을까요?!