سه‌شنبه, 7 جولای 2020

ربات هوشمند پوکر؛ پیروز در رقابت با انسان

ربات پوکر ؛ روبات هوشمندی در آمریکا توانسته در دیداری مقابل ۵ حریف در پوکر به پیروزی دست پیدا کند.

ماشین ها و ربات‌ها بار دیگر تعجب و شگفتی همگان را به ارمغان آورده اند. این ربات که مخصوص بازی پوکر است، پلوریبوس نام دارد و توانسته در یک بازی ۶ نفره تگزاس هولدم نو لیمیت، تمامی حریفان را شکست دهد. این اولین بار است که هوش مصنوعی توانسته در یک بازی با حضور بیش از دو بازیکن به پیروزی برسد.

جولیان توگلیوس از دانشگاه نیویورک که بر روی بازی‌ها و ارتباطشان با هوش مصنوعی کار می‌کند در این رابطه گفت:” افزایش تعداد بازیکنان از دو نفر به ۶ نفر، اتفاق بسیار بزرگی بود. در حقیقت یک شگفتی رخ داده است. اینکه ربات بتواند به صورت همزمان با چند نفر بازی کند، چیزی نیست که به راحتی در دسترس علم حاضر باشد.”

تیمی که پلوریبوس را ساخته، پیشتر توانسته بود یک ربات دیگر به استم لیبراتوس را بسازد که در بازی پوکر حرفه ای با دو رقیب موفق به پیروزی شده بود. آنها با به روز سازی لیراتوس، موفق شدند پلوریبوس رابسازند، رباتی که به حساب و کتاب کمتری برای پیروزی در بازی ها نیاز دارد. نوام براون از دانشگاه نارنژی ملون پیتسبرو از ایالت فیلادلفیا، که از محققین ربات فیس بوک بوده و روی پروژه پلوریبوس نیز کار کرده گفت:” در طول ۱۲ روز و با ۱۰ هزار دست مختلف، پلوریبوس توانسته ۱۵ بازیکن حرفه ای پوکر را شکست دهد. خیلی از محققین هوش مصنوعی بر این باور بودند که ساخت چنین رباتی ممکن نخواهد بود.”

دیگر ربات‌هایی که توانسته اند انسان را در بازی ها شکست دهند – مثل لیبراتوس و دیپ مایندز گو- نشان داده اند که آنها در بازی های دو نفره موفق هستند. در چنین بازی‌هایی همیشه یک برنده و یک بازنده وجود دارد و تئوری های بازی می‌تواند استراتژی خوبی را برای شما تعریف کنند. ولی این تئوری ها در سناریوهایی که چندین رقیب با یکدیگر رقابت می‌کند و شرایط برد و باخت نامشخص است و در واقع هیچ بازنده قاطعی در این بازی ها وجود ندارد، جواب نمی‌دهند. در یک بازی پوکر چند نفره، پلوریبوس گامی بلند رو به جلو برمی‌دارد که برای ساخت نسل‌های آینده ربات ها بسیار حیاتی و مهم است.

آنها بر این باور هستند که ساخت چنین رباتی می‌تواند گامی مهم در ساخت ابزارهایی برای مذاکره، تقلب یاب و ماشین‌های خودران باشد.

برای موفقیت در یک بازی شش نفره پوکر، براون و سندهولم، الگوریتم جستجو لیبراتوس را توسع دادند. بیشتر ربات‌هایی که بازی می‌کنند، به دنبال درخت تصمیم گیری می‌کردند که با توجه به شرایط، بهترین تصمیم را در اختیار آنها بگذارد. لیبراتوس پیش از تصمیم گیری، تا پایان بازی را جستجو می‌کرد.

ولی پیچیدگی ورود بازیکنان بیشتر، باعث می‌شود که کار دشوارتر شود. پوکر نیاز به استدلال دارد، آن هم با اطلاعات کمی که در اختیار شما قرار می‌دهد. بنابراین بازیکنان با توجه به کارت‌هایی که رقبایشان در اختیار دارند و همینطور حدس رقبا از دست آنها، استراتژی تعیین کنند. ولی حضور بازیکنان بیشتر در یک بازی، کار را برای هر تصمیم گیری دشوارتر هم می‌کند زیرا احتمال ها را بیشتر می‌کند.

نکته کلیدی در این میان، ساخت روشی برای پلوریبوس بود که تصمیمات خود را با توجه به چند حرکت بعدی بازی بگیرد، نه انتها و نتیجه آن. پلوریبوس با سیستم خودآگاهانه اش، به خود آموزش داد و بهتر و بهتر شد. به صورت رندوم شروع به بازی پوکر کرد و در طول زمان، متوجه شد کدام حرکت پول بیشتری به دست می‌آورد. بعد از هر بازی نیز، دستی که بازی شده بود را مورد بررسی قرار می‌داد. مثلا اگر در یک جا بهتر بود رِیز بدهد، شرایط را بررسی می‌کرد و اگر یک مقطع دیگر از بازی، به جای شرط بستن، بهتر بود فولد می‌داد، از آن درس می‌گرفت. اینها همگی یک زمینه را برای او آماده کرده بود.

پلوریبوس میلاردها دست با خودش پوکر بازی کرد و یک استراتژی مشخص برای بازی ها اتخاذ کرد. در هر مقطع از بازی، او شرایط را با دستی که پیشتر مشابهش را بازی کرده مقایسه می‌کند و با توجه به اتفاقاتی که رخ داده اوضاع را بررسی می‌کند. او سپس تصمیم می‌گیرد که آیا می‌توان شرایط را بهبود بخشید یا نه. از آنجا که او بازی را خودش یاد گرفته و انسانی به او تدریس نکرده، تصمیماتی می‌گیرد که انسان‌ها کمتر به سراغ آن می‌روند.

موفقیت پلوریبوس در اثرگذاری آن است. وقتی شروع به فعالیت می‌کند، دو سی پی یو در آن شروع به کار می‌کنند در حالی که برای مثال در دیپ مایندز گو، نزدیک به ۲ هزار سی پی یو فعالیت دارند و در لیبراتوس، ۱۰۰ سی پی یو فعالیت می‌کنند. وقتی پلوریبوس با خودش بازی می‌کند، هر دست تقریبا ۲۰ ثانیه طول می‌کشد، شاید ۲ برابر سریعتر از هر بازیکن حرفه ای.

بازی ها راهی فوق العاده برای بررسی هوش مصنوعی هستند زیرا رباط ها می‌توانند انسان را شکست دهند و به عنوان ابرانسان در بین ما شناخته شوند ولی براون معتقد است که ربات‌ها از حد و مرز خود بیرون زده اند. او گفت:” این آخرین چالش باقی مانده در پوکر بود.”

با این حال، تاگلیوس معتقد است که هنوز مرزهای ناشناخته ای برای فتح در زمینه ربات‌ها و بازی ها وجود دارد. او گفت:” هنوز مناطق ناشناخته ای در این رابطه هستند.” ربات‌های کمی توانسته اند در بیش از یک بازی به موفقیت برسند که این به توانایی فنی ربات هم بستگی دارد.

تا به امروز این ربات‌ها بوده اند که بازی ها را از انسان ها یاد گرفته اند و آن را در خود پیشرفت داده اند. یکی از جالب ترین خصوصیت آنها این است که تصمیماتی را مورد بررسی قرار می‌دهند که انسان‌ها کمتر به سراغ آن می‌روند. این عدم تمایل انسان‌ها ممکن است از روی اتفاقاتی باشد که در گذشته برایشان رخ داده و همین باعث می‌شود از بعضی تصمیم گیری ها دور شوند ولی برای رباتی که دچار چنین محدودیتی نیست، استفاده از این تصمیم گیری می‌تواند بازی را برایش عوض کرده و شرایط را به کل تغییر دهد.

حال باید منتظر ماند و دید ساخت ربات های بیشتر که در بازی ها با انسان مشارکت می‌کنند و اغلب موفق به کسب پیروزی خواهند شد، چه تاثیری در بازی‌های مختلف از جمله پوکر خواهد داشت و آیا روزی می‌رسد که ربات‌ها بتوانند متدهای جدیدی در بازی کشف کنند و به انسان آموزش دهند یا نه

حتما بخوانید :