ربات پوکر ؛ روبات هوشمندی در آمریکا توانسته در دیداری مقابل ۵ حریف در پوکر به پیروزی دست پیدا کند.
ماشین ها و رباتها بار دیگر تعجب و شگفتی همگان را به ارمغان آورده اند. این ربات که مخصوص بازی پوکر است، پلوریبوس نام دارد و توانسته در یک بازی ۶ نفره تگزاس هولدم نو لیمیت، تمامی حریفان را شکست دهد. این اولین بار است که هوش مصنوعی توانسته در یک بازی با حضور بیش از دو بازیکن به پیروزی برسد.
جولیان توگلیوس از دانشگاه نیویورک که بر روی بازیها و ارتباطشان با هوش مصنوعی کار میکند در این رابطه گفت:” افزایش تعداد بازیکنان از دو نفر به ۶ نفر، اتفاق بسیار بزرگی بود. در حقیقت یک شگفتی رخ داده است. اینکه ربات بتواند به صورت همزمان با چند نفر بازی کند، چیزی نیست که به راحتی در دسترس علم حاضر باشد.”
تیمی که پلوریبوس را ساخته، پیشتر توانسته بود یک ربات دیگر به استم لیبراتوس را بسازد که در بازی پوکر حرفه ای با دو رقیب موفق به پیروزی شده بود. آنها با به روز سازی لیراتوس، موفق شدند پلوریبوس رابسازند، رباتی که به حساب و کتاب کمتری برای پیروزی در بازی ها نیاز دارد. نوام براون از دانشگاه نارنژی ملون پیتسبرو از ایالت فیلادلفیا، که از محققین ربات فیس بوک بوده و روی پروژه پلوریبوس نیز کار کرده گفت:” در طول ۱۲ روز و با ۱۰ هزار دست مختلف، پلوریبوس توانسته ۱۵ بازیکن حرفه ای پوکر را شکست دهد. خیلی از محققین هوش مصنوعی بر این باور بودند که ساخت چنین رباتی ممکن نخواهد بود.”
دیگر رباتهایی که توانسته اند انسان را در بازی ها شکست دهند – مثل لیبراتوس و دیپ مایندز گو- نشان داده اند که آنها در بازی های دو نفره موفق هستند. در چنین بازیهایی همیشه یک برنده و یک بازنده وجود دارد و تئوری های بازی میتواند استراتژی خوبی را برای شما تعریف کنند. ولی این تئوری ها در سناریوهایی که چندین رقیب با یکدیگر رقابت میکند و شرایط برد و باخت نامشخص است و در واقع هیچ بازنده قاطعی در این بازی ها وجود ندارد، جواب نمیدهند. در یک بازی پوکر چند نفره، پلوریبوس گامی بلند رو به جلو برمیدارد که برای ساخت نسلهای آینده ربات ها بسیار حیاتی و مهم است.
آنها بر این باور هستند که ساخت چنین رباتی میتواند گامی مهم در ساخت ابزارهایی برای مذاکره، تقلب یاب و ماشینهای خودران باشد.
برای موفقیت در یک بازی شش نفره پوکر، براون و سندهولم، الگوریتم جستجو لیبراتوس را توسع دادند. بیشتر رباتهایی که بازی میکنند، به دنبال درخت تصمیم گیری میکردند که با توجه به شرایط، بهترین تصمیم را در اختیار آنها بگذارد. لیبراتوس پیش از تصمیم گیری، تا پایان بازی را جستجو میکرد.
ولی پیچیدگی ورود بازیکنان بیشتر، باعث میشود که کار دشوارتر شود. پوکر نیاز به استدلال دارد، آن هم با اطلاعات کمی که در اختیار شما قرار میدهد. بنابراین بازیکنان با توجه به کارتهایی که رقبایشان در اختیار دارند و همینطور حدس رقبا از دست آنها، استراتژی تعیین کنند. ولی حضور بازیکنان بیشتر در یک بازی، کار را برای هر تصمیم گیری دشوارتر هم میکند زیرا احتمال ها را بیشتر میکند.
نکته کلیدی در این میان، ساخت روشی برای پلوریبوس بود که تصمیمات خود را با توجه به چند حرکت بعدی بازی بگیرد، نه انتها و نتیجه آن. پلوریبوس با سیستم خودآگاهانه اش، به خود آموزش داد و بهتر و بهتر شد. به صورت رندوم شروع به بازی پوکر کرد و در طول زمان، متوجه شد کدام حرکت پول بیشتری به دست میآورد. بعد از هر بازی نیز، دستی که بازی شده بود را مورد بررسی قرار میداد. مثلا اگر در یک جا بهتر بود رِیز بدهد، شرایط را بررسی میکرد و اگر یک مقطع دیگر از بازی، به جای شرط بستن، بهتر بود فولد میداد، از آن درس میگرفت. اینها همگی یک زمینه را برای او آماده کرده بود.
پلوریبوس میلاردها دست با خودش پوکر بازی کرد و یک استراتژی مشخص برای بازی ها اتخاذ کرد. در هر مقطع از بازی، او شرایط را با دستی که پیشتر مشابهش را بازی کرده مقایسه میکند و با توجه به اتفاقاتی که رخ داده اوضاع را بررسی میکند. او سپس تصمیم میگیرد که آیا میتوان شرایط را بهبود بخشید یا نه. از آنجا که او بازی را خودش یاد گرفته و انسانی به او تدریس نکرده، تصمیماتی میگیرد که انسانها کمتر به سراغ آن میروند.
موفقیت پلوریبوس در اثرگذاری آن است. وقتی شروع به فعالیت میکند، دو سی پی یو در آن شروع به کار میکنند در حالی که برای مثال در دیپ مایندز گو، نزدیک به ۲ هزار سی پی یو فعالیت دارند و در لیبراتوس، ۱۰۰ سی پی یو فعالیت میکنند. وقتی پلوریبوس با خودش بازی میکند، هر دست تقریبا ۲۰ ثانیه طول میکشد، شاید ۲ برابر سریعتر از هر بازیکن حرفه ای.
بازی ها راهی فوق العاده برای بررسی هوش مصنوعی هستند زیرا رباط ها میتوانند انسان را شکست دهند و به عنوان ابرانسان در بین ما شناخته شوند ولی براون معتقد است که رباتها از حد و مرز خود بیرون زده اند. او گفت:” این آخرین چالش باقی مانده در پوکر بود.”
با این حال، تاگلیوس معتقد است که هنوز مرزهای ناشناخته ای برای فتح در زمینه رباتها و بازی ها وجود دارد. او گفت:” هنوز مناطق ناشناخته ای در این رابطه هستند.” رباتهای کمی توانسته اند در بیش از یک بازی به موفقیت برسند که این به توانایی فنی ربات هم بستگی دارد.
تا به امروز این رباتها بوده اند که بازی ها را از انسان ها یاد گرفته اند و آن را در خود پیشرفت داده اند. یکی از جالب ترین خصوصیت آنها این است که تصمیماتی را مورد بررسی قرار میدهند که انسانها کمتر به سراغ آن میروند. این عدم تمایل انسانها ممکن است از روی اتفاقاتی باشد که در گذشته برایشان رخ داده و همین باعث میشود از بعضی تصمیم گیری ها دور شوند ولی برای رباتی که دچار چنین محدودیتی نیست، استفاده از این تصمیم گیری میتواند بازی را برایش عوض کرده و شرایط را به کل تغییر دهد.
حال باید منتظر ماند و دید ساخت ربات های بیشتر که در بازی ها با انسان مشارکت میکنند و اغلب موفق به کسب پیروزی خواهند شد، چه تاثیری در بازیهای مختلف از جمله پوکر خواهد داشت و آیا روزی میرسد که رباتها بتوانند متدهای جدیدی در بازی کشف کنند و به انسان آموزش دهند یا نه