แนวความคิดการเล่นแบบ GTO และแบบ Exploitative

ในโลกของโป๊กเกอร์ยุคปัจจุบัน จะมีแนวความคิดที่สำคัญที่สุดอยู่ 1 ชุด ที่จะครอบคลุมหลักการการเล่นทั้งหมดที่เหลือของโป๊กเกอร์ หลักการที่ว่านั้น มีชื่อว่า “Game Theory Optimal (แนวทางการเล่นที่เหมาะสมที่สุดตามทฤษฎีเกม) หรือ GTO”

แต่ก่อนจะไปทำความรู้จักกับ GTO เราควรจะมารู้จักกับแนวความคิดอีกแนวหนึ่งที่อยู่ฝั่งตรงข้าม GTO กันก่อน นั่นคือ แนวคิดการเล่นแบบ exploitative 

แนวคิดแบบ Exploitative คืออะไร?

เกมการเล่นโป๊กเกอร์ในยุคก่อน หรือที่เรียกว่ายุค old school คือตั้งแต่แรกเริ่มจนถึงประมาณปี 2010 นั้น มีพัฒนาการการเล่นขึ้นมาเรื่อยๆ แรกเริ่มที่สุด ผู้คนมักจะเล่นโป๊กเกอร์กันแบบเรียบง่าย แทบจะไม่มีความซับซ้อน นั่นก็คือ “การเล่นตามหน้าไพ่” โดยผู้เล่นมักจะเลือกเฉพาะไพ่ที่ใหญ่ๆมาสู้กัน ถ้ามี hand ที่ strong พอก็สู้ ถ้าไม่มี hand ที่ strong พอ หรือไม่ติดอะไรบน board ก็ fold กินกันง่ายๆแบบนี้

จนกระทั่งมีผู้เล่นกลุ่มหนึ่ง เริ่มจับทางได้ว่า คนบางส่วน ถ้าไพ่ที่ได้ไม่ติดอะไร ก็มักจะ check และเมื่อเจอ bet ก็ยอมหมอบง่ายๆ จึงเริ่มมีพัฒนาการการเล่นมาเป็นการ “bluff” กันมากขึ้น เมื่อตำแหน่งและโอกาสได้เปรียบ และเจออีกฝ่าย check มา 1-2 ครั้ง ฝ่ายที่ตำแหน่งได้เปรียบ หรือ In Position (IP) ที่ได้ตัดสินใจทีหลัง ก็ฉวยโอกาส bluff ด้วยการ bet ทั้งๆที่ไม่ติดอะไรเหมือนกัน แต่สามารถทำให้อีกฝ่ายหมอบได้ และได้กำไรจากการ bluff นั้น

การ bluff จึงเป็นต้นกำเนิดของวิธีการเล่นแบบ “Exploitative” (เรียกย่อๆว่า exploit) หรือคือการ “โจมตีจุดอ่อน/ข้อผิดพลาดของคู่ต่อสู้” เพื่อให้ได้เปรียบ เป็นวิธีแรกๆ นั่นคือ ใครเล่นแบบ tight จนเกินไป การ bet มีแต่ value bet (การ bet ที่เรียกกำไร/หรือ value จากการมี hand ที่ดีจริงๆ) อย่างเดียวเท่านั้น ก็จะสามารถถูก exploit ได้ง่ายๆ ด้วยการ bluff ยิ่งเล่น tight เท่าไหร่ คู่แข่งยิ่งมีโอกาสเลือกไพ่มา bluff ได้กว้างขึ้นเท่านั้น เพราะรู้ดีกว่าโอกาสที่จะหมอบมีสูง (แต่ถ้าไม่หมอบ หรือโดน raise กลับมา คู่แข่งที่ bluff ก็สามารถหมอบได้ง่ายๆ)

จากนั้นมา แนวความคิดการเล่นแบบ exploit คู่แข่ง ก็เป็นแนวความคิดหลักของเกมโป๊กเกอร์ ผู้เล่นแต่ละคนพยายามหาจุดอ่อนของคู่แข่ง และโจมตีจุดอ่อนนั้น ไม่ว่าจะจากวิธีการเล่น หรือจากการสังเกตอากัปกิริยา (Tell) ของคู่แข่ง ซึ่งอาจจะสรุปได้ดังนี้ :

หลักการ exploit คู่แข่งจากวิธีการเล่น

ส่วนการ exploit คู่แข่งจากนิสัย หรือจาก tell ของคู่แข่งนั้น จะมีความเป็นหลักการหรือเหตุผลน้อยกว่า แต่จะใช้เรื่องของ “ศิลปะ” หรือจิตวิทยามากกว่า ซึ่งเกิดจากประสบการณ์และจิตวิทยาของคู่แข่งที่มองออกว่า จุดอ่อนของผู้เล่นคนนี้อยู่ตรงไหน และพยายามเข้าไปโจมตีหรือ exploit คู่แข่งในจุดนั้นโดยตรง เช่น

จะเห็นได้ว่า การ exploit คู่แข่งจากนิสัย หรือ tell นั้น มักจะต้องเป็นการ exploit เมื่อได้เจอคู่แข่งต่อหน้าในการเล่นไลฟ์มากกว่า เพราะหากเป็นการเล่นออนไลน์ก็จะไม่สามารถสังเกตนิสัยหรือ tell เหล่านี้ได้เลย

ในอดีต ผู้เล่นส่วนใหญ่มักจะใช้วิธีเหล่านี้ ทั้งดูนิสัยใจคอและวิธีการเล่น เพื่อหาวิธี exploit ให้ได้มาเรื่อยๆ ผู้เล่นที่เก่งจึงมักเป็นคนที่สามารถอ่านนิสัยใจคอและวิธีการเล่นของ คู่แข่งออก หรือพยายามคิดให้เหนือกว่าคู่แข่งไปอีกขั้น (หรือที่เรียกว่า outthink) ใครที่รู้ทันคู่แข่ง และคิดได้เหนือกว่าขั้นหนึ่ง ก็มีโอกาสที่จะได้เปรียบกว่าอยู่ 1 ขั้น ทำให้เกมในยุคสมัยก่อน เป็นการพยายามเอาชนะกันล่วงหน้าทางความคิด โดยพยายามคิดให้เหนือกว่าคู่แข่งเป็นขั้นๆ กลับไปกลับมาไปเรื่อยๆ ตามลำดับ จากที่เบสิคที่สุด ไปถึงขั้นที่ซับซ้อนมากขึ้น คือ : 

และเป็นแบบนี้ กลับไปกลับมาอีกเรื่อยๆ โดยยิ่งคิดในระดับที่เหนือกว่าคนอื่นได้มากเท่าไหร่ ยิ่งมีโอกาสรู้ทันคนอื่นมากขึ้นเท่านั้น

เกมการเล่นในโลกโป๊กเกอร์ก็ดำเนินมาตามแนว exploit แบบนี้มาเรื่อยๆ ผู้เล่นต่างๆก็พยายามหาทางเอาชนะกัน พยายามทำให้ตัวเองได้เปรียบคนอื่นมากที่สุดในทุกวิถีทางมาเรื่อยๆ และก็เริ่มตระหนักถึงข้อจำกัด หรือข้อเสียของวิธีการเล่นแนว exploit ซึ่งท้ายที่สุดแล้ว จะนำพาโลกของโป๊กเกอร์เข้าสู่การเล่นในยุคใหม่ ดังนี้

ข้อจำกัดของแนวความคิดการเล่นแบบ exploitative

  1. เป็นสมมติฐานที่ตั้งขึ้นลอยๆ โดยขาดหลักฐานมาพิสูจน์ ทำให้มีโอกาสผิดพลาดสูง

การเล่นแนว exploit นั้นอาศัยสมมติฐานว่า คู่แข่งของเราจะเป็นผู้เล่นแนวนั้นแนวนี้ ชอบเล่นแบบนั้นแบบนี้ ซึ่งในความเป็นจริงมันอาจจะไม่ใช่แบบนั้นเลยก็ได้ เพราะ :

จะเห็นว่าวิธีการเล่นแบบ exploit นั้นมันตั้งอยู่บนพื้นฐานของสมมติฐานของเราเองเป็นหลักโดยที่ไม่สามารถพิสูจน์ได้ทางวิทยาศาสตร์หรือคณิตศาสตร์ ทำให้ถ้าเราปักใจเชื่อสมมติฐานนั้นแบบหลับหูหลับตา ก็อาจเป็นตัวเราเองก็ได้ ที่กำลังถูก exploit อยู่ ไม่ใช่คู่แข่ง

  1. ถ้าเจอผู้เล่นหน้าใหม่ หรืออยู่ที่เล่นกลางๆ จะไม่รู้ว่าควรจะ exploit ยังไง

การที่เราจะตั้งสมมติฐานกับผู้เล่นคนหนึ่งๆได้ เราจำเป็นต้องมีค่าสถิติพอสมควรที่จะทำให้เราค่อนข้างแน่ใจประมาณหนึ่ง ดังนั้นมันจะเป็นจุดบอดทันที ถ้าเราเกิดเจอผู้เล่นหน้าใหม่ที่ไม่เคยเจอกันมาก่อน หรือเจอผู้เล่นที่ดูจะเล่นแบบกลางๆ ไม่ได้เอนเอียงทางไหนเป็นพิเศษ อากัปกิริยา การแสดงออกอะไรก็ไม่มี เป็นคนที่นิ่งมากๆ แล้วเราจะอ่านเขาออก หรือจะ exploit เขาได้ยังไง? จะเริ่มจากตรงไหน? นั่นคือปัญหาเมื่อเราเจอผู้เล่นที่ไม่ชัดเจนด้านใดด้านหนึ่งเป็นพิเศษ

  1. มีโอกาส exploit ได้ผิดพลาด หากไม่รู้ว่า มาตรฐานตรงกลางอยู่ตรงไหน

ต่อให้เรารู้แบบแน่ชัด 100% ว่า คู่แข่งเป็นผู้เล่นแนวไหน และเราสามารถที่จะ exploit เขาได้ ปัญหาก็คือ เราก็ยังไม่รู้อยู่ดีว่าควรจะปรับตัว มากหรือน้อยแค่ไหน ถึงจะพอดี เพราะถ้าปรับมากเกินไป ก็อาจจะเป็นตัวเราเอง ก็ถูก exploit เพราะยิ่ง “เอนเอียง” ไปในทางใดทางหนึ่งมากเกินไป การเล่นของเราก็จะยิ่งเปราะบางมากขึ้นเท่านั้น เช่น เรารู้ว่าคู่แข่งคนนี้เล่น tight เราจึงพยายาม exploit ด้วยการเล่นไพ่ที่ range กว้างขึ้น aggressive มากขึ้น bluff มากขึ้น ซึ่งอาจจะทำให้ : 

การที่เราไม่รู้ “ค่ามาตรฐานตรงกลาง” ทำให้เราไม่รู้ตัวว่า จุดที่สมดุลมันคือจุดไหน? ถ้าจะปรับควรจะปรับออกมากน้อยเท่าไหร่ถึงจะไม่มากเกินไป นอกเหนือจากแค่วัดจากความรู้สึกของตัวเอง 

  1. การเล่นออนไลน์เป็นที่นิยมมากขึ้น จึงไม่สามารถ exploit จากนิสัยหรือ tell ของคู่แข่งได้

อย่างที่บอกไปว่า ข้อจำกัดของการ exploit คู่แข่งจากบุคลิกนิสัย อากัปกิริยานั้น มันสามารถทำได้เฉพาะการเล่นไลฟ์เท่านั้น แต่พอเทคโนโลยีพัฒนามากขึ้น การเล่นออนไลน์เป็นที่นิยมแพร่หลายมากขึ้น เพราะทั้งเสียต้นทุนน้อยกว่า (ด้านเวลา การเดินทาง ค่าธรรมเนียม) สะดวกสบายกว่า จะเล่นที่ไหนเมื่อไหร่ก็ได้ และสามารถเล่นจำนวน hand เยอะกว่าไลฟ์อย่างมหาศาล ในเวลาที่เท่ากัน ทำให้การจะ exploit คู่แข่งในโลกออนไลน์ด้วยวิธีนี้ ทำไม่ได้อีกต่อไป

  1. การคิดเป็นลำดับขั้นนั้นยากและซับซ้อนเกินไป

การพยายาม outthink หรือคิดให้เหนือกว่าคู่แข่งนั้น อาจจะเป็นแนวทางที่น่าจะได้ผลตามสมมติฐานในทางทฤษฎี แต่ในทางปฏิบัติแล้ว มันเป็นเรื่องที่แทบจะเป็นไปไม่ได้ (โดยเฉพาะกับผู้เล่นทั่วไปที่ไม่ได้มีพรสวรรค์ในการอ่านใจใครเป็นพิเศษ) ยิ่งกับการเล่นออนไลน์ที่มีเวลาในการเล่นแต่ละ hand อย่างจำกัด (โดยเฉลี่ยไม่เกิน 10-20 วินาที) ทำให้เราไม่สามารถคิดอย่างซับซ้อนแบบนั้นได้ในระยะเวลาอันสั้นขนาดนี้ หรือต่อให้คิดได้ ก็ไม่สามารถแน่ใจได้เลยว่าคิดถูกหรือไม่ หลักการนี้จึงอาจสงวนไว้ให้ผู้เล่นเฉพาะบางคน ที่มีสัญชาตญาณ หรือมีพรสวรรค์ในการเล่นที่เหนือกว่าคนอื่น เพราะมันยากเกินไปที่คนส่วนใหญ่จะนำมาใช้ได้จริงในทางปฏิบัติ   

จากข้อจำกัดดังกล่าว ประกอบความรุดหน้าในการเล่นออนไลน์ รวมถึงพัฒนาการทางเทคโนโลยี ทำให้มีผู้เล่นกลุ่มหนึ่งที่เห็นข้อจำกัดนี้ และต้องการที่จะยกระดับการเล่นให้ไปไกลกว่าเดิม ได้พัฒนา “เครื่องช่วยคำนวณ” หรือ “solver” ขึ้นมา โดยทดลองใส่ตัวแปรต่างๆในการเล่นเข้าไปให้ solver ช่วยจำลองการเล่นจากสถานการณ์การเล่นใน board แทบจะทุกแบบ กับ hand ทุกๆ hand ที่เป็นไปได้ เพื่อหาผลลัพธ์ที่ “optimal” คือ ดีที่สุด หรือเหมาะสม ในการเล่น hand นั้นๆ ทำให้ผลลัพธ์ที่ได้มีความเชื่อถือได้มากขึ้น เพราะผ่านการทดสอบซ้ำแล้วซ้ำเล่ามานับแสนนับล้านครั้ง (หรืออาจจะมากกว่านั้น) จนกลายเป็นค่าสถิติระยะยาวทางคณิตศาสตร์อย่างมีหลักฐาน ไม่ได้คิดเองเออเองขึ้นมาลอยๆ และนั่นคือจุดกำเนิดของแนวคิดการเล่นในยุคใหม่ (New School) อย่าง GTO ขึ้น 

แนวคิดแบบ GTO คืออะไร?

GTO หรือ Game Theory Optimal เป็นแนวคิดการเล่นโป๊กเกอร์ที่รับมาจาก ทฤษฎีการตัดสินใจทางเศษฐศาสตร์ของ จอห์น แนช (John Nash) นักคณิตศาสตร์ที่ได้รับรางวัลโนเบลสาขาเศรษฐศาสตร์ในปี 1994 ว่าด้วยเรื่องของ “ทฤษฎีเกม” (Game Theory) ที่พูดถึงการตัดสินใจระหว่างผู้เล่น 2 ฝ่าย ที่พยายามหาผลประโยชน์ร่วมกันอย่างเหมาะสมที่สุด แม้มันอาจจะทำให้แต่ละฝ่ายไม่ได้ผลประโยชน์ที่สูงที่สุดก็ตาม (ซึ่งเป็นจุดที่เรียกว่า Nash Equilibrium หรือ “จุดดุลยภาพของแนช”) หรือพูดง่ายๆก็คือ มันเป็นเรื่องของเกมกลยุทธ์ที่การตัดสินใจเรา จะขึ้นอยู่กับผลของการตัดสินใจของอีกฝ่ายเช่นกัน (และเช่นเดียวกันในทางตรงกันข้าม)

เกมโป๊กเกอร์จึงรับทฤษฎีนี้มาใช้ เพราะมีแนวความคิดที่สอดคล้องกัน และเรียกมันว่า GTO โดยที่จุดดุลยภาพของ GTO ก็คือจุดที่มีกลยุทธ์การเล่นทุกอย่างที่ “Optimal” ที่สุด (ต่อไปนี้จะขอใช้คำว่า optimal ทับศัพท์แทนคำว่า “ดีที่สุดหรือเหมาะสมที่สุด” เพื่อความเข้าใจที่ตรงกัน) ที่ทำให้ในระยะยาวแล้ว ผู้เล่นแต่ละฝ่ายที่เล่นตามกลยุทธ์นี้จะ “ไม่สามารถทำกำไรจากอีกฝ่ายได้” เนื่องจากรู้ทันกันหมด (หรือถ้าพูดในมุมการ exploit มันก็คือจุดที่ไม่มีช่องโหว่ ทำให้คู่แข่งไม่สามารถ exploit เราได้) หากมีฝ่ายไหนที่ “เบี่ยง” การเล่นออกจากกลยุทธ์นี้ จะเสียกำไรระยะยาวให้กับผู้เล่นอีกฝ่ายทันที ดังนั้น ในทางทฤษฎีแล้ว หากมีผู้เล่นคนใดที่เล่นกลยุทธ์ตามแนวทาง GTO ผู้เล่นอีกฝ่ายก็จำเป็นต้องเล่น GTO ด้วย เพื่อไม่ให้อีกฝ่าย exploit แล้วทำกำไรได้นั่นเอง

จุดเด่นของการเล่นตามแนวคิดแบบ GTO

จากการพัฒนาแนวคิด และแนวทางการเล่นแบบ GTO ขึ้นมา จะเห็นว่ามันสามารถตอบโจทย์ในการปิดจุดอ่อนและแก้ไขปัญหาเดิมๆของแนวทางการเล่นแบบ exploit ได้ ทำให้ปัจจุบัน ผู้เล่นยุคใหม่เกือบทั้งหมด มักจะเล่นโป๊กเกอร์ด้วยการศึกษาการเล่นแนว GTO เป็นเกณฑ์ มากกว่าจะยึดตามแนว exploitative เหมือนในอดีต ด้วยเหตุผลสำคัญดังต่อไปนี้ :

  1. GTO เป็นการเล่นที่มีหลักการ อยู่บนพื้นฐานที่พิสูจน์ได้อย่างมีเหตุผลในทางคณิตศาสตร์ ไม่ได้สรุปขึ้นมาเองแบบลอยๆโดยใช้ความเชื่อหรือความรู้สึกส่วนตัว

ขณะที่แนวทางการเล่นเดิมแบบ exploitative นั้นเกิดจากการสังเกต ตั้งสมมติฐาน หรืออนุมานการเล่นของผู้เล่นคนอื่น ตามข้อมูลที่เราได้รับนโต๊ะ ซึ่งเป็นข้อมูลที่ไม่ครบถ้วนสมบูรณ์ ทำให้เราต้องคาดเดาส่วนที่เหลือเองเป็นส่วนใหญ่ ซึ่งมีโอกาสผิดพลาดได้มาก เนื่องจากหลายครั้งเราก็ใช้ความรู้สึกหรือสัญชาตญาณของเราในการตัดสินใจเป็นหลัก ซึ่งอาจจะมีอคติและไม่มีหลักการและเหตุผลมารองรับมากพอ แต่ GTO เป็นแนวทางการเล่นที่ผ่านการพิสูจน์มาแล้วในทางคณิตศาสตร์จากสถิติระยะยาว ทำให้ทุกอย่างสามารถอธิบายได้อย่างมีหลักการและเหตุผลรองรับ ยากที่จะโต้แย้ง ทำให้มันเป็นการเล่นที่สมเหตุผลมากกว่า และช่วยให้เราเล่นได้มั่นใจมากกว่าการ exploit ที่ขาดเหตุผลรองรับที่น่าเชื่อถือมากพอ

  1. เมื่อสามารถเล่นได้ตาม GTO จะไม่มีผู้เล่นคนใดที่สามารถเอาชนะเราได้ในระยะยาว

เนื่องจากจุดที่เล่น GTO ได้ 100% จะเป็นจุดดุลยภาพที่ optimal ที่สุด แล้ว ดังนั้น ผู้คนไหนที่เล่นกลยุทธ์อื่น ที่ไม่ใช่ GTO จะไม่สามารถ exploit และเอาชนะเราในระยะยาวได้เลย และยังเป็นช่องโหว่ให้คนที่เล่น GTO สามารถเอาชนะได้อีก

  1. ไม่จำเป็นต้องสนใจสไตล์การเล่นของคู่แข่งเพื่อหาทาง exploit

GTO เป็นแนวทางการเล่นที่สมดุลอยู่ที่จุดที่ดีที่สุดอยู่แล้ว ดังนั้น เราจึงไม่ต้องหาวิธีปรับตัวเพื่อไป exploit คู่แข่งให้ยุ่งยาก ไม่ว่าจะเจอคู่แข่งแบบไหน สไตล์อะไร หน้าเก่าหรือหน้าใหม่ที่ไม่เคยเล่นด้วยกันมาก่อน ก็ไม่มีปัญหา ต่างจากแนวทางแบบ exploitative ที่ถ้าอยากจะโจมตีจุดอ่อนคู่แข่ง ก็ต้องจับพยายามจับแนวทางการเล่นของคู่แข่งให้ได้ก่อน

  1. ไม่จำเป็นต้องพยายามคิดให้เหนือกว่าคู่แข่ง 

เช่นเดียวกัน ในเมื่อ GTO เป็นแนวทางการเล่นที่ดีที่สุด และไม่มีใครสามารถมา exploit ได้ เราก็ไม่จำเป็นต้องพยายามคิดถึงคู่แข่งกลับไปกลับมาให้ซับซ้อน และไม่ต้องกลัวว่าคู่แข่งจะมา outthink แล้ว exploit เราได้ เพราะเราเล่นอยู่ในจุดที่ optimal ที่สุดอยู่แล้ว

  1. หากจะปรับการเล่นเพื่อ exploit คู่แข่ง จะทำให้รู้เราว่าควรจะปรับจากตรงไหนเท่าไหร่

แม้ GTO จะเป็นการเล่นที่ดีที่สุดอยู่แล้ว แต่ถ้าสมมติใครต้องการปรับการเล่นออกจาก GTO เพื่อ exploit คู่แข่ง ก็จะเป็นการปรับที่มีหลักการ รู้ว่าควรจะปรับไปให้ทิศทางไหนมากน้อยเท่าไหร่ เนื่องจากเรารู้แล้วว่า GTO เป็นการเล่นที่อยู่ในจุดดุลยภาพที่เหมาะสมที่สุด เวลาจะปรับจึงปรับออกจากจุดนี้ ในขณะที่แนวทางแบบ exploitative เดิม จะเป็นการหาวิธีการโจมตีคู่แข่งแบบที่กะประมาณเอาเองขึ้นมาลอยๆ แบบไม่มีจุดเริ่มต้นว่าควรเริ่มจากตรงไหน ซึ่งมีโอกาสผิดพลาดได้สูงกว่า 

ข้อจำกัดของ GTO

จากที่ดูมา ราวกับว่า GTO จะเป็นวิธีการเล่นที่แสนวิเศษ เพราะเป็นการเล่นที่ optimal ที่สุด ที่ไม่มีใครสามารถชนะเราได้ แต่ในความเป็นจริงแล้ว มันอาจจะไม่ใช่แบบนั้น เพราะในที่สุดแล้วต้องอย่าลืมว่า GTO เป็นเพียงหลักการตามทฤษฎี ซึ่งในทางปฏิบัติอาจจะยังไม่สามารถไปถึงได้ ทำให้จนถึงปัจจุบัน GTO ยังมีข้อจำกัดที่เป็นอุปสรรคในการเล่นอยู่ 3 ข้อ คือ : 

  1. ปัจจุบันเรายังไม่สามารถเล่นตาม GTO ได้ 100%

แม้ GTO จะเป็นแนวทางการเล่นที่ดีที่สุด แต่ปัจจุบันมันยังเป็นจริงเพียงในทางทฤษฎี เพราะในทางปฏิบัติ เรายังไม่สามารถเล่นได้ตาม GTO 100% และยังไม่มีใครรู้ว่า GTO ที่แท้จริง 100% นั้นอยู่จุดไหน เนื่องจากแนวทางการเล่นที่เรา “พยายาม” ให้เข้าใกล้ GTO ในปัจจุบันนั้น เกิดจากการคำนวณของ solver ตามค่าสถิติในระยะยาว ซึ่งต้องมีการกำหนดสมมติฐานต่างๆให้มันคำนวณ (เช่น bet size หรือ จำนวนผู้เล่น) และเราทำได้เพียงแค่เลือกตัวแปรบางส่วนมากำหนดในมันคำนวณเท่านั้น แต่ในความเป็นจริงแล้ว ตัวแปรที่ในเกมโป๊กเกอร์ที่เรานำมาใช้ในการคำนวณนั้น มันมีจำนวนมาก และซับซ้อน เกินกว่าที่ความสามารถของ solver ในปัจจุบันจะทำได้ (ถ้าให้มันคำนวณ อาจจะใช้เวลานานนับปี)

เช่น ปัจจุบัน solver จะคำนวณการเล่น postflop ได้เฉพาะการเล่นแบบ heads-up (ผู้เล่นแค่ 2 คน) เท่านั้น แต่ยังไม่สามารถคำนวณเมื่อมีผู้เล่นมากกว่า 2 คนใน pot ได้ เพราะจะยิ่งทำให้ผลลัพธ์ที่เป็นไปได้ของกลยุทธ์ทุกอย่างซับซ้อนขึ้นเป็นทวีคูณ หรือเวลา bet solver ก็คำนวณการเล่น bet size ที่กำหนดมาให้เท่าไหร่ แต่ในความเป็นจริง เราอาจเจอผู้เล่นหลายคนที่ใช้ bet size ที่หลากหลาย ที่อาจส่งผลทำให้กลยุทธ์บางอย่างเปลี่ยนแปลงไปก็เป็นได้ ซึ่งทั้งหมด ยังเกินกว่าระดับที่ solver จะไปถึงในปัจจุบัน 

นั่นทำให้เราต้องระวังอยู่เสมอว่า การเล่นตามหลักการที่เราคิดว่ามันเป็น GTO มันยังไม่ใช่ GTO 100% จึงยังมีช่องโหว่อยู่ นั่นทำให้ยังมีโอกาสที่เราอาจจะถูก exploit ได้บ้าง และการเล่นของผู้เล่นที่พยายามเล่น GTO ทั้ง 2 คน ยังมีฝ่ายใดฝ่ายหนึ่งที่มีโอกาสทำกำไรระยะยาวได้อยู่ ยิ่งใครสามารถเล่นได้เข้าใกล้ GTO มากกว่ากันขึ้นไปเท่าไหร่ ก็ยิ่งมีโอกาสเล่นได้อย่าง optimal มากขึ้นเท่านั้น

  1. มีการศึกษาที่ลึกและซับซ้อนกว่าแนว exploitative และปฏิบัติจริงได้ยาก

การเล่นแนว GTO เป็นแนวทางที่เราต้องศึกษาการเล่นหลายจุดอย่างละเอียดซับซ้อน ทำให้เข้าใจยาก และจดจำได้ยากมาก ต่อให้เรารู้ว่า GTO ที่แท้จริงต้องเล่นยังไง ในทางปฏิบัติเราก็อาจจะไม่สามารถเล่นตามนั้นได้แป๊ะจริงๆได้ เพราะมันต้องผสมการเล่นที่หลากหลายเป็นสัดส่วนตามที่กำหนด (เช่น จุดนี้ถ้าจะให้ optimal ต้อง raise 20% call 70% และ fold 10% ซึ่งในทางปฏิบัติ เราเล่นตามนี้เป๊ะได้ยาก จึงอาจจะปรับเป็น call 100% เพื่อให้เล่นได้ง่ายขึ้นแทน) ในขณะที่การเล่นแนว exploitative จะเป็นหลักคิดกว้างๆแบบหยาบๆ ไม่ได้แนะนำอย่างเฉพาะเจาะจงว่าจุดนี้ต้องเล่นยังไงเท่าไหร่แบบเป๊ะๆ จึงปฏิบัติตามได้ง่ายกว่า ดังนั้น แม้ใครจะมองว่า GTO เป็นกลยุทธ์ที่เหนือกว่า แต่ในทางปฏิบัติต้องทุ่มเทการศึกษาอย่างหนัก แต่ยังต้องคิดว่าควรจะปรับมาใช้จริงยังไงให้เหมาะสมอีกด้วย 

  1. ไม่สามารถทำกำไรสูงสุดได้กับผู้เล่นที่ไม่ได้เล่นตาม GTO

ตามทฤษีแล้ว GTO จะเป็นการเล่นที่เมื่อเจอกับผู้เล่นที่ไม่ได้เล่นตาม GTO จะทำกำไร (มี EV เป็นบวก หรือ +EV) ในระยะยาวได้เสมอ แต่ข้อจำกัดก็คือ มันอาจจะไม่ใช่การเล่นที่ทำให้ได้กำไรมากที่สุด เมื่อเทียบกับการเล่นแบบ exploitative โดยเฉพาะอย่างยิ่ง เมื่อเจอกับผู้เล่นที่อาจจะมีช่องโหว่ที่ชัดเจนมากๆ GTO จะทำให้เราเสียโอกาสที่จะทำกำไรให้มากขึ้นกับผู้เล่นเหล่านี้ (หรือทำให้เสียเงินกว่าเยอะในระยะสั้น ถ้าต้อง call hand ที่สู้กับคนที่แทบจะไม่ bluff เลย) 

เล่นแบบ GTO ต้องทำยังไง?

หลังจากที่เราเรียนรู้หลักการของ GTO ในภาพรวม และเข้าใจจุดเด่นและข้อจำกัดของมันกันไปแล้ว ถึงจุดนี้หลายคนอาจจะอยากรู้และเริ่มตั้งคำถามว่า “แล้วจริงๆแล้วการเล่นแบบ GTO ต้องเล่นยังไงกันแน่?” ซึ่งเราจะมาอธิบายกันในส่วนนี้

หัวใจหลักของการเล่นแบบ GTO ที่อยู่ในทุกจุดของการเล่น คือแนวคิดของการเล่นที่ “บาลานซ์” หรือเล่นอย่างสมดุล ที่จะผสมการเล่นหลายรูปแบบเข้าด้วยกัน เพื่อให้คู่แข่งจับทางเราไม่ได้ ทำให้เราถูก exploit ได้ยากขึ้น ซึ่งจุดที่เราต้องบาลานซ์การเล่นของเรา โดยสรุปแล้ว จะมีอยู่ 3 จุดหลักๆด้วยกัน ดังต่อไปนี้

3 จุดที่เราต้องบาลานซ์การเล่น

  1. Range

range คือ “กลุ่มของ hand” ที่เราเล่น ทั้ง preflop (เล่น open-raising, vs open หรือ vs 3-bet range) และ postflop (raising, calling, folding range) โดย range เหล่านี้ที่ GTO แนะนำว่า แต่ละ range นั้น ควรประกอบไปด้วย hand อะไร มากน้อยแค่ไหน เกิดจากการทดลองตามค่าสถิติระยะยาว และได้ผลออกมากแล้วว่า range ไหนควรเล่นด้ว hand อะไรบ้าง ถึงจะได้ +EV จึงออกมาเป็นตาราง hand matrix ที่เราเคยศึกษากันไปตอน open- raising range ที่อยู่ใน preflop นั่นเอง

range ที่ solver แนะนำตามแนวทางของ GTO นั้น จะมีความบาลานซ์ เนื่องจากจะเป็นการผสมระหว่าง hand ที่เป็น strong hand (เช่น JJ-AA, KQ, AQ-AK), medium hand (เช่น 66-TT, 78s-AJs หรือ JT และ KT-KJ) และ weak hand (เช่น 22-55, 23s-9Ts และ hand ที่เหลืออื่นๆ) ในขอบเขตที่เหมาะสม เพื่อไม่เราถูก exploit ได้จากการเล่นเฉพาะ hand ที่ strong อย่างเดียว (หรือเล่นใน range ที่กว้างมากๆจนมี hand ที่ weak มากเกินไปเช่นกัน) 

ดังนั้นตามหลักของ GTO แล้ว ในทุกๆจุดของการเล่น เราต้องคอยประเมิน range ของเราให้ดีอยู่เสมอ ว่า range ของเราบาลานซ์ดีพอหรือไม่? หนักไปทาง strong มากเกินไปไหม (ถ้ามากเกินไป จะทำให้คู่แข่ง exploit เราได้ เมื่อเรา check เพราะจะรู้ได้ทันทีว่า hand เราไม่ strong) หรือมี hand ที่ medium หรือ weak มากเกินไปรึเปล่า (ถ้ามากเกินไป จะทำให้คู่แข่ง exploit เราด้วยการ call มากขึ้น fold น้อยลง เวลาที่เรา bet ทำให้โอกาสที่เราจะชนะลดลง)

ตัวอย่างของ range ที่บาลานซ์ตาม GTO ซึ่งมีทั้ง hand กลุ่ม strong, medium และ weak hand

(เราจะมาศึกษาเรื่อง range ในเชิงลึกกันอีกครั้งในบท Range Construction และ Preflop Range)

  1. Action & Bet Size (Mixed Strategy)

การเล่นตาม GTO เพื่อบาลานซ์นั้น จะมีหลักการอยู่ที่ ในบางสถานการณ์นั้นเรามักจะไม่ควรทำอะไร 100% เหมือนเดิมทุกครั้ง กับ action ที่เราสามารถทำได้คือ bet, raise, call, check, fold โดยจะมีการผสมผสานการเล่นให้หลากหลายและจับทางได้ยาก หรือที่เรียกว่า เป็น “กลยุทธ์แบบผสม” หรือ mixed strategy ซึ่งเป็นการผสม action การเล่นมากกว่า 1 อย่างเข้าด้วยกันกับ hand ใด hand หนึ่งตาม % ความบ่อย เช่น ในสถานการณ์ที่ GTO แนะนำว่าต้องเล่นต่อ เมื่อเจอกับ bet อาจจะเป็นการ call 66% และ fold 34% กับ hand นี้ ใน board นี้ เพื่อไม่ให้คู่แข่ง exploit และทำกำไรจากเราได้โดยอัตโนมัติ เป็นต้น

นอกเหนือจากนั้น เวลาที่เรา ต้อง bet หรือ raise mixed strategy ตามหลักของ GTO อาจจะแนะนำให้เราใช้ bet size แต่ละขนาดตาม % ความบ่อยที่แตกต่างกัน เช่น bet ⅓ pot 60% + ⅔ pot 40% หรือ raise 2.5x 80% + raise 3.5x 20% เป็นต้น เพื่อให้ hand ของเราบาลานซ์ยิ่งขึ้น  

ตัวอย่างของ action และ bet size ที่บาลานซ์ตาม GTO ตามภาพ กับ hand AJs กับ board นี้ solver แนะนำ mixed strategy ให้เล่นโดยเฉลี่ยแล้วคือ check ประมาณ 29% (สีเขียว) bet ประมาณ 71% โดยเป็น bet เล็กประมาณ 28% (สีแดงอ่อน) และ bet ใหญ่ประมาณ 43% (สีแดงเข้ม)

(เราจะมาศึกษาเรื่อง mixed strategy ในเชิงลึกกันอีกครั้งในบท Flop Texture & Bet Sizing)

  1. Value & Bluff

value และ bluff คือเหตุผลของการ bet หรือ raise ที่แตกต่างกัน 2 ขั้ว ถ้าเป็น value คือการ bet โดยมีจุดประสงค์เพื่อต้องการเรียก value หรือชิพจากคู่แข่งให้ได้มากที่สุด ขณะที่ bluff คือการ bet เพื่อทำให้ hand ที่ดีกว่า hand ของเรายอม fold ไป ในทุกๆสถานการณ์ที่เรา bet เราจึงจำเป็นต้องมีทั้ง hand ที่เรา bet เพื่อ value (value bet) และ bet เพื่อ bluff (bluffing bet) ผสมรวมกันอยู่ใน range ของเรา บน board แบบเดียวกัน เพื่อบาลานซ์การ bet ของเราให้คาดเดาได้ยาก ไม่อย่างนั้นแล้ว ถ้าเรามีแต่ value bet ใน board นี้ คู่แข่งจะ exploit เราทันทีด้วยการ fold (เพราะรู้ว่าถ้า bet มาจะมีแต่ strong hand) หรือถ้าเรามีแต่ bluffing bet คู่แข่งจะ exploit เราทันทีด้วยการ call (เพราะรู้ว่าถ้า bet มาจะมีแต่ weak hand)  

ยกตัวอย่างเช่น board Q♠️9♣️8♠️5♣️4♠️ เราอาจจะต้อง bet หรือ raise คู่แข่งที่ river ทั้งกับ hand ที่อยู่ใน range ของเราอย่าง A♠️J♠️, Q♦️9♦️ หรือ 9♣️9♠️ เพื่อเป็น value bet และกับ hand อย่าง K♣️J♣️ หรือ A♠️T♦️ เพื่อเป็น bluff bet ด้วยเช่นกัน เพื่อให้ range ของเราบาลานซ์ และไม่ให้คู่แข่ง exploit เราได้ 

(เราจะมาศึกษาเรื่องการบาลานซ์ระหว่าง value กับ bluff อีกครั้งในบทที่เกี่ยวกับเรื่องของ Minimum Defence Frequency และ Blocker)

เราควรใช้แนวคิดแบบไหนเป็นหลักในการเล่นดี?

หลังจากที่เราได้รู้จักกับแนวทางการเล่นหลักทั้ง 2 แนวในโลกของโป๊กเกอร์กันไปแล้ว คือแนว exploit และแนว GTO ซึ่งแต่ละแนวก็มีทั้งข้อดีข้อเสีย รวมถึงจุดเด่นและข้อจำกัด ที่แตกต่างกันออกไป จนเราอาจจะเกิดความสงสัยว่า “แล้วตกลงเราควรจะเลือกแนวทางไหนมาใช้เป็นแนวการเล่นของเราดี?” ซึ่งปัจจุบัน ก็มีทั้งฝ่ายที่สนับสนุนและคัดค้าน GTO รวมถึงฝ่ายที่สนับสนุนและคัดค้าน Exploitative เช่นกัน

คำตอบในเรื่องนี้อาจจะยังไม่เป็นเอกฉันท์ จนกว่าเราจะได้ค้นพบการเล่นแบบ GTO ที่แท้จริง 100% อย่างไรก็ตาม เราก็หนีข้อเท็จจริงไม่พ้นว่า GTO ถูกสร้างมาบนพื้นฐานแนวคิดทางคณิตศาสตร์ที่สามารถพิสูจน์ได้อย่างมีหลักการมากกว่า Exploitative ซึ่งมันสามารถอธิบายเหตุผลและตอบปัญหาของการเล่นในหลายๆรูปแบบได้อย่างเป็นระบบ มากกว่าใช้ดุลยพินิจรายบุคคลที่เชื่อถือได้น้อยกว่า มันจึงเป็นแนวการเล่นที่นักเล่นกลุ่มโปรเพลเยอร์ยุคใหม่เชื่อมั่น และนำมาใช้เป็นหลักในการศึกษากันมากกว่าในปัจจุบัน

ดังนั้น แม้ว่า GTO จะเป็นแนวคิดที่ยังไม่สมบูรณ์แบบ แต่มันก็ยังอยู่บนเส้นทางให้เราได้ศึกษาอย่างมีหลักการอยู่ดี และถึงแม้เราอาจจะอยากเล่นแนว Exploitative ที่อาจจะทำกำไรให้เราได้มากกว่า เราก็ยังควรต้องศึกษา GTO เพื่อให้ทราบแนวทางการเล่นที่เป็นจุดสมดุลเป็นมาตรฐานตรงกลางอยู่ดี เพื่อให้เราสามารถปรับตัวโดย “เบี่ยง” การเล่นออกจาก GTO ได้อย่างเหมาะสม ซึ่งจะช่วยให้เรา exploit คนอื่นได้อย่างมีประสิทธิภาพมากขึ้น 

นั่นคือเหตุผลที่โปรเพลเยอร์ระดับโลกสามารถเล่นโป๊กเกอร์ได้อย่างน่ากลัวและเต็มไปด้วยประสิทธิภาพ เพราะพวกเขาเข้าใจแก่นและหลักการเล่นแบบ GTO อย่างถ่องแท้ และยังสามารถนำหลักการที่เรียนรู้จาก GTO มาใช้ในการเล่นจริงโดยปรับการเล่นให้เข้ากับคู่แข่งแต่ละคนเพื่อ exploit ได้อย่างเต็มที่ จนทำให้เป็นการเล่นที่แทบจะสมบูรณ์แบบ ซึ่งเป็นจุดสูงสุดที่ผู้เล่นทุกคนอยากจะไปให้ถึงได้สักวันหนึ่ง

====================================================================

บทสรุปจากบทที่ 3