조회 수 991
추천 수 6
2024.07.15 13:42:57
솔버를 사용한 학습에서 가장 흔한 질문 중 하나는 "왜 솔버가 더 높은 EV를 가진 액션이 있음에도 이 액션을 선택하는가?"입니다.
예를 들어, 아래 시나리오에서 체크가 베팅보다 높은 EV를 가지고 있지만, 솔루션은 이 핸드로 베팅하기를 원합니다:
이런 일이 왜 일어나는지 이해하려면, 먼저 게임 이론의 기본 원칙을 이해해야 합니다:
혼합 액션의 법칙
완벽한 균형 상태에서 혼합 액션은 항상 같은 기대값을 가져야 합니다. 즉, 한 핸드가 두 개 이상의 액션 사이에서 혼합될 때, 그 액션들은 같은 EV를 가져야 합니다. 생각해 보세요; 왜 의도적으로 더 나쁜 전략을 선택하겠습니까? 진정으로 완벽한 전략은 결코 "밸런스를 위해 EV를 희생하지" 않을 것입니다. 이는 내쉬 균형의 엄격한 법칙입니다.
위의 예에서 우리는 솔버가 A7o로 체크, 27% 베팅, 73% 베팅, 127% 베팅 사이에서 전략을 혼합하는 것을 볼 수 있습니다. 하지만 이 액션들의 EV는 같지 않습니다. 그렇다면 왜 우리의 솔루션에서 이런 일이 일어나는 걸까요? 왜 A7o로 체크하는 것이 가장 높은 EV 액션임에도 "부정확"하다고 간주되는 걸까요?
솔버 노이즈
GTO 솔루션은 불완전합니다. 실제로, GTO 솔루션은 완벽한 정확도로 해결되지 않고, 특정 Exploit 가능성 임계값까지만 해결됩니다.
전체 솔루션의 Exploit이 덜 할수록, 그 정확도는 더 높아집니다. 우리는 "내쉬 거리" 또는 dEV라고 불리는 지표로 솔루션의 정확도를 정의합니다. 참고로, GTO Wizard는 일반적으로 팟의 약 0.2%-0.3%까지 해결합니다. 이는 얼마나 Exploit 가능한 수준일까요?
BTN vs BB 시나리오를 상상해 봅시다. 팟이 5.5BB라고 가정하면, 가장 좋은 전략이 이 솔루션을 Exploit 할 수 있는 최대치는 5.5의 0.3%, 즉 핸드당 0.017BB입니다. 이는 인간의 플레이 수준을 훨씬 넘어서는 수준입니다.
이것이 우리가 "솔버 노이즈"라고 부르는 것입니다. 핸드가 항상 가장 높은 EV 액션을 취하지는 않습니다. 완벽한 정확도로 솔루션을 해결한다면 솔버 노이즈는 사라지고 모든 혼합된(Mixed) 액션에서 동일한 EV 를 가질 수 있을 것입니다.
문자 그대로 절대 플레이되지 않는 라인을 취하는 상황에서는 엄청난 EV 차이를 볼 수 있습니다. 이는 솔버가 효율성을 높이기 위해 해결 과정 초기에 도미네이트된(0%) 라인의 계산을 중단하기 때문입니다. 이는 정상이지만, 그런 라인의 전략과 EV는 덜 정확합니다.
Exploit 가능성
그렇다면 가장 높은 EV 액션이 항상 최선의 선택일까요?
반드시 그렇지는 않습니다. 이 정확한 전략에 대해서는 그것이 최선의 선택일 수 있습니다. 하지만 항상 A7o로 체크한다면, 이론적으로 BB는 자신의 전략을 조정하여 체크가 더 낮은 EV가 되도록 만들 수 있습니다! 솔버가 익스플로잇을 당하지 않기 위해 Mix 전략을 구사한다는 것을 기억하세요.
위의 예시를 완벽한 정확도로 해결한다면 어떻게 될까요? 체크가 여전히 가장 높은 EV 무브일까요?
A7에 대해 두 가지 중 하나가 일어날 것입니다:
1. 체크의 EV가 낮아져 사용되지 않게 됩니다; 또는
2. 체크의 EV가 다른 베팅 옵션과 같아지고 어떤 빈도로 계속 사용될 수 있습니다.
완벽한 정확도로 해결하지 않고는 확실히 알 수 없습니다. 일반적으로, 낮은 빈도의 액션은 사라지고 더 낮은 EV가 되며, 합리적인 빈도로 취해지는 액션은 전략의 일부로 남게 됩니다. 이것이 3.5% 미만의 빈도로 취해지는 액션이 "부정확"으로 표시되는 이유입니다.
다른 예를 살펴봅시다:
예시 2: A7o가 콜이 더 높은 EV임에도 콜과 폴드 사이에서 혼합
여기서 우리는 A7o가 콜과 폴드 사이에서 혼합하는 것을 볼 수 있습니다; 하지만 콜이 폴드보다 상당히 높은 EV를 가진 것으로 보입니다. 콜은 폴드보다 약 1.7BB 더 높은 EV를 가집니다. 그렇다면 왜 폴드를 혼합할까요?
이를 관점에 두어야 합니다. 콜 후의 팟은 200.05 BB가 될 것입니다. 따라서 1.8 BB의 오차는 팟의 약 0.9%에 불과합니다. 실제로 이는 보이는 것보다 훨씬 가깝습니다. 1%의 오차 범위는 팟이 커질수록 더 크게 보입니다.
모든 것을 콜하는 것의 문제점은 상대방이 나를 Exploit 할 수 있게 된다는 것입니다. 이런 경계선상의 블러프 캐처를 모두 콜한다고 상상해 보세요. 갑자기 오버콜링을 하게 되고 밸류 위주의 상대에 의해 Exploit 될 수 있습니다.
왜 그냥 완벽한 정확도로 해결하지 않나요?
완벽하게 정확한 솔루션은 대량 생산 규모에서 단순히 실현 가능하지 않습니다. 문제는 솔버가 균형에 가까워질수록 수렴 속도가 훨씬 더 느려진다는 것입니다. 완전히 해결되지 않은 상태에서 0.5% dEV로 가는 데 걸리는 시간과 0.5%에서 0.25% dEV로 가는 데 걸리는 시간이 거의 같습니다.
정확도를 두 배로 높이면 해결 시간이 두 배가 됩니다. 그리고 수익이 감소됩니다. 0.3% dEV로 정확한 솔루션은 0.15% dEV로 해결된 솔루션과 거의 동일하며, 둘 다 여전히 솔버 노이즈를 가질 것입니다.
대안은 해결하기 쉬운 매우 간단한 트리를 만드는 것입니다. 이는 자체적인 문제를 만들어내는데, 게임 트리를 지나치게 단순화하면 솔버가 그 트리의 한계를 Exploit 하여 인위적인 왜곡을 일으키게 됩니다.
결국, 믿을 수 없을 정도로 높은 정확도와 미세한 EV에 집착하는 것은 큰 의미가 없습니다. 솔루션은 어차피 인간의 착취 가능성 수준을 훨씬 넘어섭니다.
여기 우리의 해결 과정 예시가 있습니다. 보시다시피, 진행은 처음에 빠르게 일어나다가 균형에 가까워질수록 점점 느려집니다. 이 예시는 팟의 0.3%까지 해결되었습니다.
무엇을 알아가야 할까요
솔버가 액션 사이에서 혼합하는 것을 볼 때, 가장 높은 EV 액션을 찾는 대신 가장 높은 빈도의 액션을 봐야 합니다. 이는 여러분이 보는 모든 EV 차이가 솔루션의 노이즈 때문이기 때문입니다.
혼합 액션을 같은 EV를 가진 것처럼 취급하세요. 여러분이 보는 모든 차이는 오차 범위로 생각할 수 있습니다 (모든 핸드는 대략 ± 그 EV입니다).
GTO의 목적은 Exploit 될 수 없는 가장 높은 EV 전략을 찾는 것입니다. 여러분이 보는 작은 오차는 모든 솔버 솔루션에서 발견됩니다. 여러분의 목표는 빈도를 외우는 것이 아니라 더 높은 수준의 전략을 추상화하고 GTO 추론을 발전시키는 것입니다.
저자 : Tombos21
출처 : https://blog.gtowizard.com/understanding-nash-distance/
잘 보셨다면 추천 하나씩 눌러주시면 감사하겠습니다.
스크랩
댓글 수
6
댓글 작성은 로그인이 필요합니다.
클릭 시 로그인페이지로 이동합니다.
2024.07.15 14:23:45
결론 : 빈도 외워서 뭐하냐 괜히 RNG 쓰는거 아니다
+시나리오별 OOP IP EQ 버킷에 뭘 채울지 궁리하자
다만 dEV 트리별로 다시 0.01 미만으로 돌리면 5%미만 빈도가 싹 사라질 순 있음 퓨어 첵 or n% bet
2024.07.15 14:33:57
@닉변문의
그런것같네요 ㅋㅋ
2024.07.15 14:37:28
@풍선
0.01까지 돌리는 이유는 특유의 불안감을(Anxiety) 가지고 사는 부류들을 위한 최소한의 안전장치라고 생각하면 편함
약간 편집증같은거
2024.07.15 14:37:57
@닉변문의
아 ㅋㅋ 근데 그렇게 할 필요 없나보네요
2024.07.15 14:43:57
@풍선
어차피 위저드 쓰면 되는데 누가 요즘시대에 하드웨어 솔버를 돌림 ㅋㅋ
궁금한건 직접해봐야 직성이 풀리는 부류나 그런거고
2024.07.15 23:31:36
세부적으로는 랜덤이어야 익스플로잇 안당함.
일부 오차는 큰 의미없음