개요
이전에 '내가 터득한 프리플랍, 플랍 전략'이라는 제목으로 글을 썼었는데, 뭐 사실 진지하게 쓴 글은 아니다. 이걸로 대회에 나가서 우승할 리는 만무할테니까.
나는 포커를 아직 제대로 공부해본 적이 없다. 포커로 돈을 벌 생각은 아직 없기 때문이다. 실력은 뭐... 나의 숫자감각에 의존해 플레이 머니를 불리는 정도? '텍사스 홀덤 게임' 자체는 그 정도로 즐기고 있다.
대신 나는 다른 것에 관심이 있다. 포커의 최적화된 전략이다.
나는 오픈레인지나 3벳레인지를 암기하는 것보다는, 최적 액션과 레인지가 도출되는 과정에 관심이 많다.
가령, ATo보다 KQo가 왜 좋은가? 이것을 엄밀하게 분석해보고 싶은 것이다.
나는 수학적으로 이 게임을 파헤쳐볼 것이다.
이 글은 순수하게 나의 연구로만 이루어진 글이다. 그러니 여기 있는 모든 글자가 나의 저작권인 셈이다.
최선의 전략 취하기
GTO란 무엇일까? 흔히 상대방이 익스플로잇하지 못하게 하는 전략이라고 한다.
근데 '폴드만 하는 전략'도 상대방이 익스플로잇할 수 없지 않은가?
GTO란 게임 이론에서 곧 우월 전략을 의미한다. 즉, 상대방이 어떤 행동을 취하든 간에 관계없이 나에게는 최선인 전략이다. 강우월 전략은 그러한 전략이 딱 하나 존재하는 것이다. 약우월 전략은 두 개 이상 존재하는 것이다. 아마 GTO는 약우월전략일 것으로 예상한다. 플레이 방법이 많을 것이라는 것이다.
폴드만 하는 전략은 상대방이 이를 익스플로잇할 순 없지만 GTO가 아니다. 이게 왜 GTO가 아닌 지는 조금 더 깊게 들어가봐야 알 수 있다. 그러니 GTO 얘기는 잠시 미루고, 완전히 기초적인 것을 다뤄볼 것이다.
항상 상대방은 경쟁자에 대응해 최선의 전략을 취할 수 있는데, 그렇게 되면 우리가 얻을 수 있는 돈은 우월 전략으로 플레이할 때보다 줄어든다. 우리가 우월 전략으로 플레이하지 않을 때 상대방이 최선의 전략을 취한다면, 상대방은 우리를 익스플로잇하게 된다.
그런데 최선의 전략은 어떻게 취하는 걸까? 아니, 애초부터 모든 상황에서 최선이라는 게 가능하긴 한 걸까?
앞으로 우리가 나아가야할 길이 많다. 일단 지금은, 주어진 상황에서 최선의 전략을 찾는 방법부터 알아볼 것이다.
우리는 가위바위보라는 게임에서 어떻게 최선의 전략을 찾는 지 알아볼 것이다.
A와 B가 가위바위보 게임을 한다. A와 B에게는 가위, 바위, 보, 포기라는 선택지가 있다. 가위는 보를 이긴다. 보는 바위를 이긴다. 바위는 가위를 이긴다. 포기는 항상 진다. A와 B의 선택이 같으면 비긴다.
A가 바위를 80% 확률로, 포기를 20% 확률로 선택하는 전략을 취한다고 가정하자. B는 A의 그런 전략을 알고 있을 때, 어떻게 해야 A로부터 최대한 많이 이길 수 있을까? 정답은 보를 100% 확률로 내는 것이다. 이때 B의 100% 확률로 보를 내는 전략이 A에 대한 최선의 전략이 된다.
이번엔 A가 가위를 30% 확률로, 바위를 30% 확률로, 보를 30% 확률로, 포기를 10% 확률로 선택하는 전략을 취한다고 가정해보자. B는 무엇을 하면 될까? 포기를 하면 안 된다는 것은 확실하다. 그건 바보짓이니까. B가 가위를 낸다면 40% 확률로 이기고, 30% 확률로 비기고, 30% 확률로 질 것이다. 이건 B가 바위나 보를 냈을 때도 마찬가지이다. 즉 B는 포기를 하지 않는 선에서 뭘 내든 상관이 없는 것이다. 이것이 B의 A에 대한 최선의 전략이 된다.
이제 A는 가위를 40% 확률로, 바위를 30% 확률로, 보를 30% 확률로 낸다. 이제 B는 어떤 전략을 취해야 할까?
B가 가위를 낸다면, 30% 확률로 이길 것이다. 바위를 낸다면, 40% 확률로 이길 것이다. 보를 낸다면, 30% 확률로 이길 것이다.(물론 비기는 것을 고려한다면 보보다는 가위를 내는 것이 유리할 것이다. 하지만 여기서는 승률만 생각하도록 하자.)
B의 전략을 한 번 구상해보자.
B가 가위를 낼 확률을 P1, 바위를 낼 확률을 P2, 보를 낼 확률을 P3, 포기를 할 확률을 P4라고 하자.
항상 가위, 바위, 보, 포기 중 하나의 사건이 일어나므로 P1 + P2 + P3 + P4 = 1이다.
이제 B의 승률은 0.3*P1 + 0.4*P2 + 0.3*P3 + 0*P4가 될 것이다.
우리는 0.3*P1 + 0.4*P2 + 0.3*P3 + 0*P4의 최댓값을 구해야한다. 어떻게 해야겠는가?
이 문제는 재배열 부등식(Rearrangement inequality)을 이용하여 간단히 해결할 수 있다.
뭔가 복잡해보이지만, 그렇게 어려운 건 아니다. P1, P2, P3, P4를 크기 순서대로 a, b, c, d로 재배열한 후, 모든 확률이 음이 아닌 실수이고 a가 가장 크다는 것을 이용해 준식이 0.4보다 작거나 같음을 도출한 것이다. 결국 0.3P1 + 0.4P2 + 0.3P3 + 0*P4의 최댓값은 0.4이다.(등호는 P2=1, P1=P3=P4=0일 때 성립한다.)
즉 B는 P2를 1인 전략으로 할 때, 다시 말해서 바위만 내는 전략을 취할 때 A에게서 가장 높은 승률을 얻을 수 있다. 이제 B는 A를 익스플로잇한다. B는 매번 40% 확률로 승리하고 A는 30% 확률로 승리한다.
익스플로잇의 피해 최소화하기
게임을 하는 동안 우리의 전략이 상대방에게 읽혀 익스플로잇 당하게 된다면 매우 곤란할 것이다. 익스플로잇하고 있는 상대의 전략을 알아차린다면 역공을 할 수도 있을 것이다. A가 보만 내는 전략으로 바꿔버려서 B의 바위만 내는 전략을 박살버린다든지. 하지만 복잡한 게임에서 상대방이 우릴 어떻게 익스플로잇하고 있는 지 알겠는가? 익스플로잇 당하는 줄도 모르다가 패배할 지도 모른다.
그러니 우리는 가능하면 익스플로잇 당하지 않는 상황을 만들고 싶다. 이 말은 즉슨, 내 전략에 대한 상대방의 최선의 전략이 최대한 적은 이득을 가지도록 해야한다는 것이다. 이제 우리는 익스플로잇 당하지 않는 전략이 뭔지 한 번 생각해볼 때인 것이다. 2편에서는 내쉬 균형에 대해서 다룰 것이다.
"상대방은 독심술사로 나의 전략을 완벽히 꿰고 있다. 이 상황에서 내가 취할 수 있는 최선의 전략이 뭘까?"
돈주는피쉬
2022.04.29 10:53:55
몽라쿤
뭐 서울대였으면 긍정했을테니 연고대중에 하나인 걸로 알게. 이제 네가 말한 거에 답변하겠음. 완전히 겹치는 연구가 있는 지 조사 당연히 해놨음. 1편에서 설명하고 있는 개념은 게임 이론이니 당연히 다른 학술지에서도 같은 개념을 설명할 거임. 포커 관련 논문 중 대부분은 통계학적으로 최적해를 찾아내는 방식이었고, 수학적으로 유도하는 건 없었음. 난 앞으로 다변수미적분을 통해 GTO로 가능한 모든 함수를 구할 생각이고 그걸 지금 여기에 쓰고 있는 중임. 본격적인 포커 모델에 들어서면 내쉬균형같은건 이미 알고있다는 전제하에 수식을 계속 풀어나갈 거임. 그니까 지금 여기서 개념이 겹친다고 뭐라 하지마삼. 그리고 연구라는 건 인류 지성의 발전 뿐만 아니라 개인의 지적 호기심을 고취하는데도 의의가 있음. 그 어떤 학자도 안 나온 연구만 하려고 하진 않음.
몽라쿤
2022.04.29 11:04:29
돈주는피쉬
MIT인데? 니가 아는 탑대학의 범위가 국내에 한정되어있다는 걸 미처 예상못했네
니가 다른 애들한테 단 댓글보고 얘기한거야
니가 쓴 내용들의 부실함은 둘째치고
대부분 어디에서 들어봄직한 용어들에 내용들인데
니가 니 머리에서 나온 순수한 내용이라고 하니까 하는얘기다
피타고라스의 정리를 혼자 생각해내면 그게 표절인가요 -->
초등학생도 다 아는 피타고라스 정리를 혼자 생각해내기 전에 옆집 사는 초등학생한테 물어보는 과정 그게 Literature Survey이고
진짜 학문은 거기서 시작되는거야
니가 니 개인의 지적 호기심 충족을 위해서 뭘 하든 관심 없는데
그걸 니 이론으로 인정받는 과정에서는 이 연구가 얼마나 그 집단지성을 발전시키는지가 매우 중요하단다.
서강홀린이
2022.04.30 05:08:37
결국 그런 작업들이 포커 실력을 키우는거랑은 아무 상관도없는 개뻘짓이었다는걸 깨달았고, 솔버사서 공부하는게 가장 효율적으로 실력을 키우는 길이란걸 깨닫게 되었죠