چهارشنبه, 26 آگوست 2020

شکست هایی که موفقیت را به دنبال دارند!

شرط بندان معمولا روی پیروزی در شرط بندی تمرکز میکنند. مردم میخواهند تا جایی که ممکن است شکست نخورند. اندرو مک، نویسنده‌ی مدل های ورزشی آماری در اکسل، اعتقاد دارد که شکست میتواند راز موفقیت در شرط بندی باشد. او در اولین مقاله ای که برای پیناکل نوشته این مساله را شرح داده است.

آیا شکست: راز موفقیت است ؟

“در این دنیا هیچ چیز نمی تواند جای پشتکار را بگیرد. استعداد نمی تواند جای پشتکار را بگیرد: حتما افراد با استعداد زیادی را دیده اید که موفق نیستند. نبوغ نمی تواند جای پشتکار را بگیرد: نابغه ی بدون پاداش تقریبا تبدیل شده به یک ضرب المثل. تحصیلات نمی تواند جای پشتکار را بگیرد : دنیا پر از افراد تحصیل کرده ی فراموش شده است. پشتکار و عزم به تنهایی قادر مطلق هستند.” کالوین – کولیگ

وقت صحبت از مدلسازی ورزشی باشد، شکست میتواند راز موفقیت ابدی باشد.

در این مقاله میخواهم با شبیه سازی و با روشی ساده به دست آوردن احتمالات نتیجه ی ۱X2 در مسابقه ی NHL را توضیح دهم. برای شروع، از یک الگوی مدل ساده شروع میکنیم تا بتوانید خودتان به راحتی آن را در اکسل اجرا کنید. این مدل بسیار ساده شده اما کاربردی است.

البته هدف اصلی من از به اشتراک گذاشتن این اطلاعات این است که برخی عناصر مدلسازی های ورزشی که کمتر در مورد آن صحبت شده است را معرفی کنم: شکست، تجزیه و تحلیلی انتقادی با استفاده از دانش دامنه و عیب یابی.

جالب است که در مدلسازی شما اغلب از شکست های خود بیشتر از موفقیتهای خود درس میگیرید. برای این منظور، وقتی این مدل را کنار هم میگذاریم و فرآیندی اساسی را ایجاد میکنیم، در واقع به صورت انتقادی نقطه ضعف های مدل را تجزیه و تحلیل میکنیم تا بتوانیم مدل خود را ارتقا دهیم. امیدوارم کاری که من به شما آموزش میدهم در بلند مدت چیزی بیشتر از یک مدل باشد – یک فرآیند عیب یابی برای ارتقا ایده‌ی های خودتان و آماده کردن آنها برای رقابتی موفق. بیایید شروع کنیم.

مرحله۱ : جمع آوری اطلاعات

برای شروع، باید کمی اطلاعات داشته باشیم. بیایید به سایت Hockey-Reference.com سری بزنیم و تمام داده های مربوط به نتایج مسابقه ی فصل NHL در سال ۲۰۱۹-۲۰۲۰ را در یک صفحه اکسل کپی پیست کنیم.

با همین داده‌های ساده‌ ی نتیجه ی مسابقه میتوانیم تجزیه و تحلیلی غافل گیر کننده داشته باشیم. برای مثال، شاید بخواهیم میانگین تعداد گل های زده شده‌ ی تیم های میزبان و مهمان، واریانس گل های زده شده، یا فرکانس وقت اضافه را بدانیم.

اگر در اکسل از توابع AVG یا VAR استفاده کنیم، میبینیم که میانگین گل تیم های میزبان در هر مسابقه ۳٫۳۰ است، درحالیکه میانگین گل تیم های مهمان در هر مسابقه ۲٫۸۵ است. واریانس این گل ها به ترتیب ۲٫۸۵ و ۲٫۶۲ است. تا اینجای این فصل تقریبا در ۲۶٫۹۱% از مواقع بازی به وقت اضافه کشیده شده. اکنون داده های خودمان را داریم. حالا بیایید توزیع نتیجه ی هدف را شناسایی کنیم.

مرحله ۲: مشاهده‌ی توزیع نتیجه ی هدفمان

فرض کنید نتیجه ‌ی هدف ما تعداد گلهای زده شده ی هر تیم است، که به نظر می رسد اگر بخواهیم پیش بینی کنیم که چه کسی پیروز میشود و این پیروز شدن هر چند وقت رخ می دهد، اینکار ساده به نظر میاید. وقتی بعدا بخواهیم انتظارات پیش بینی شده ی خودمان را به احتمالات تبدیل کنیم خوب است بدانیم که این داده ها در چه نوعی از توزیع آماری قرار خواهند گرفت.

می دانیم که گلهای NHL نوعی داده‌های قابل شمارش گسسته است. با اینکه فرصت های زیادی برای موفقیت وجود دارد اما تعداد این گلها بسیار کم است و هر چند وقت یکبار میتوانند گل بزنند و نوعی عنصر تصادفی بودن در این گل ها به چشم میخورد. به نظر می رسد که توزیع پواسیون یک انتخاب طبیعی است. ما میتوانیم این توزیع را با هر تعداد داده‌ ی اضافه شده به اکسل بررسی کنیم:

به نظر می رسد که توزیع پواسیون برای داده های ما مناسب است. تعجبی هم ندارد زیرا محققان آماری مختلفی هستند که سالهاست روی این مدل مطالعه کرده و آن را تفسیر می کنند. همینطور که ادامه‌ی مقاله را میخوانید اطلاعات مربوط به این مدل توزیع را هم در گوشه‌ی ذهنتان داشته باشید. خیلی زود از آن استفاده خواهیم کرد.

▬ این مطلب را هم بخوانید: درباره یادگیری فعالانه چه می دانید و چرا برای پیشرفت در پوکر الزامی است؟

مرحله ۳: یک “انتظار حریف تعیین شده” برای هر تیم ایجاد کنید

داده های خودمان را داریم، یک نتیجه‎ی هدف داریم، و توزیع احتمال را هم داریم. اکنون باید یک ساختار مدل داشته باشیم تا پیش بینی پایه ‌ی خود را برای هر بازی انجام دهیم. برای این مثال از ساختار مدل ساده ای استفاده میکنم که میانگین گلهای زده شده و خورده شده ‌ی هر تیم میزبان و مهمان را بدست آورده و میانگین کل آنها را هم میگیرد. تابع ما به این شکل خواهد بود:

X گل برای = (میانگین گل های زده شده برای + میانگین گل های خورده) / ۲

با اینکار به حمله، دفاع و مزیت میزبان دست پیدا میکنیم (البته به روشی ساده). با استفاده از بازی نیویورک رنجرز مقابل اتاوا سناتور در ۲۲ نوامبر میبینیم که مدل ما انتظار دارد که اتاوا ۳٫۴۳ گل و نیویورک ۲٫۷۳ گل بزند. به این ترتیب مدلمان با اطلاعاتی که دارد به ما میگوید که تیم اتاوا برنده میشود.

مرحله ۴: نتایج را شبیه سازی کنید تا تصادفی بودن مشخص شود

حالا که انتظارات گل برای هر دو تیم را داریم، باید انتظارات را به احتمالات تبدیل کنیم. ماتریس پواسون یک روش رایج برای این کار است که در کتاب “مدلهای ورزشهای آماری در اکسل” خودم هم به این مساله اشاره کرده ام. استفاده از تابع POISSON در اکسل تقریبا آسان است.

یکی از نکات منفی این روش این است که تصادفی بودن به ثمر رسیدن گلها را خیلی خوب در نظر نمیگیرد. برای اینکه به درک بهتری از چگونگی به پایان رسیدن این بازی برسیم با استفاده از شبیه سازی پواسون چیز متفاوتی را امتحان میکنیم. برای اینکار از تابع تولید اعداد تصادفی در اکسل استفاده میکنیم.

فرض کنید که در اکسل شما جعبه ابزار تحلیل داده نصب شده است، روی “داده”، سپس روی “تحلیل داده” و نهایتا روی “تولید اعداد تصادفی” کلیک کنید.

با اینکار ۱۰۰۰ مسابقه با استفاده از انتظارات ما از گل برای هر تیم شبیه سازی میشود. سپس میتوانیم تعداد دفعات برنده شدن هر تیم، دفعات وقت اضافه، یا هر چیز دیگری که میخواهیم بدانیم را محاسبه کنیم.

فرض کنید تعداد متغیرها “۱” است، تعداد اعداد تصادفی “۱۰۰۰” است (بازیهای شبیه سازی شده)، توزیع “پواسون” است، و تعداد گلهای مورد انتظار برای نیویورک (۲٫۷۳) لاندا است. وقتی مکان مناسب که میخواهیم نتایج از آنجا حاصل شوند را روی صفحه ی اکسل خود انتخاب کردیم، سپس روی OK کلیک میکنیم و اجازه میدهیم که تولید کننده ی اعداد تصادفی کارش را انجام دهد.

وقتی شبیه سازی کامل شد، همین کار را برای تیم اتاوا هم انجام میدهیم، و مطمئن میشویم که نتایج را از ستون مجاور مناسبی در روی این صفحه بدست میاوریم.

مرحله ۵: تبدیل به احتمالات

حالا که شبیه سازی های ما برای هر دو تیم کامل شده است ، باید تعداد دفعات وقوع پیروزی تیم میزبان، پیروزی مهمان، و دفعات پایان بازی در وقت اضافه را هم بدانیم. برای اینکار یک ستون دیگر به صفحه‌ی خودمان اضافه میکنیم تا حاضیه‌ی پیروزی تیم میزبان (MOV) محاسبه شود. سپس باید تعداد دفعاتی که از بین ۱۰۰۰ دفعه، MOV بیشتر از صفر، کمتر از صفر یا دقیقا صفر بود را بشماریم.

با اینکار به احتمالاتی میرسیم که با آن میتوانیم قیمتهای برد تیم میزبان، برد تیم مهمان، و وقت اضافه را برآورد کنیم. با اینکار، مدل ما برآورد میکند که قیمت وقت مقرره برای تیم نیویورک ۳٫۲۴۷ است، برای تیم اتاوا ۱٫۸۵۵ است، و قیمت منصفانه برای وقت اضافه ۶٫۵۳۶ است. سپس میتوانیم این قیمتهای برآورد شده برای بازار را با قیمتهای بازار که هنگام جستجوی ارزش شرط بندی به آن رسیده ایم مقایسه کنیم.

تجزیه تحلیل داده ها و مدل ها

اتاوا در وقت مقرر در این بازی پیروز شد، اما بهتر است عجله نکنیم و فکر نکنیم که به یک مدل برد دست پیدا کرده ایم. با وجود این پیروزی یک طرفه این مدل خیلی هم خوب نیست. توصیه نمیکنم که با این مدل شرط بندی کنید. اگر این مدل را در برابر بازاری با تعداد زیادی بازی قرار دهیم شبیه این است که به جای اسلحه با قیچی به جنگ برویم. این مساله برای من ثابت شده و اگر بخواهید آنچه که تا کنون ساخته ایم را دوباره آزمایش کنید شما هم به همین باور میرسید.

▬ این مطلب را هم بخوانید: آموزش شرط بندی مجموع در بسکتبال؛ ترس از باخت یا جسارت برای پیروزی؟

آنچه که خیلی واضح نیست، به خصوص برای کسی که یک مدل ساز تازه کار است، دلیل این امر است. این مساله ممکن است باعث ناامیدی یک مدلساز شود. اینکه کار کنید، فرآیندی که فکر میکنید معقول و مناسب است را ایجاد کنید و در آخر شکست بخورید. گویی که وقت و انرژی زیادی مصرف کنید و در نهایت دوباره به نقطه‌ی اول برگردید.

اما کار مدل شما اینجا تمام نمیشود. حتی کار اصلی از همین نقطه شروع میشود.

یک مدل خوب باید شبیه یک جفت دوربین چشمی خوب باشد – یعنی بتواند تا فواصل طولانی را با وضوح تصویر خوبی ببیند. مدل های ضعیف فاصله های دور را نمی بینند (و یا حتی به عقب نگاه می کنند که بسیار وحشتناک است!) و تصویری واضح تولید نمی کنند. عملکرد ضعیف در آزمایش آخر کار نشان میدهد که مدل ما تصویری مبهم از عملکرد آتی تیم میدهد. وقتی این اتفاق بیافتد، بهتر است از خودمان بپرسیم که:

چه عواملی در فرایند اصلی وجود دارد که به اندازه‌ی کافی به آنها توجه نکرده ایم؟

چه فرضیه هایی میتوانیم بسازیم که اثبات آنها فاجعه بار است؟

چطور میتوانیم وضوح تصویرمان را بیشتر کنیم؟

در ادامه پیشنهاداتی داریم که به فرآیند عیب یابی شما کمک می کند. وقتی با درس گرفتن از شکستهای خود مدلتان را ارتقا می دهید نهایتا موفق میشوید که تصویری با چنان وضوحی ایجاد کنید که تبدیل شود به ابزار ارزشمندی برای انبار شرط بندی شما.

داده ها را در نظر بگیرید

وقت آن است که پیچ و مهره ی مدلمان را باز کرده و ببینیم که اشتباهمان کجاست. بیایید از داده هایی که استفاده کرده بودیم شروع کنیم. به نظر ساده است – میخواهیم گل های زده شده را پیش بینی کنیم، پس از تعداد گل ها استفاده کردیم. درست به نظر میرسد، اینطور نیست؟

شاید درست باشد و شاید هم نه. داده های گلزنی همان داده های نتیجه است. نتایج هر ورزشی میتواند تحت تاثیر عواملی باشد و این مساله نشان میدهد که بخشی از نتایج ثبت شده برگرفته از مهارت نیست و در نتیجه نمیتوانیم آن را دقیقا پیش بینی کنیم.

هر چقدر گلزنی در یک ورزش تصادفی تر باشد، نسبت عوامل تاثیر گذار روی نتیجه بیشتر میشود. در ورزش هاکی این نسبت کم است. ممکن است اشتباها بخواهیم که این عوامل تاثیر گذار را مدلسازی کنیم – و این هم یکی از دلایلی است که مدلمان نتایج ضعیفی تولید میکند.

به آنچه در بازی های هاکی دیده اید فکر کنید: دروازه ی بدون گل، امتیازهای بدی که به پشت تور میروند، ضربه از جایی که آرنج بازیکن را لمس میکند پرتاب می شود. تمام اینها به عنوان گل برای یک تیم ثبت میشوند. آیا اینها را هم باید به عنوان بخشی از توانایی نهفته‌ی تیم نسبت به تیم دیگر در نظر گرفت؟ احتمالا نه. اینجاست که اهمیت روشهای آماری مثل رگرسیون اشکار میشود، و معلوم میشود که چرا پیش بینی گلهای مورد انتظار (xG) نسبت به گلهای واقعی معمولا شاخص پیش بینی قدرتمندی برای موفقیتهای آتی تیم است.

وقتی عوامل تاثیر گذار را تا جایی که میتوانید از بین ببرید در اینصورت بهتر میتوانید مهارتهای تکرارشدنی که باعث گل میشوند را ترسیم کنید. اینکه گلهایی که قبلا زده شده را به توانایی پنهان تیم در موقعیتی نسبت دهیم که نتیجه ی بازی تحت تاثیر عوامل دیگر قرار گرفته اند اشتباه است. در نظر رفتن این مساله باعث میشود حوزه های جدیدی را کشف کنیم و مدلمان را ارتقا دهیم.

نکته ی #۱: راهی پیدا کنید تا عوامل تاثیر گذار روی نتیجه ی هدفتان که در داده های شما هستند را کاهش دهید

در نظر داشتن فرصیه های مدل

هر مدلی که میسازید فرضیه هایی دارد. وقتی مدلی شکست میخورد، بهتر است که این فرضیه ها را پیدا کرده و ببینید که آیا میتوانید فرصتهایی برای ارتقا آنها کشف کنید یا نه. اولین فرضیه ای که در مثال ما بود این بود که گلهای واقعی نشانگر قدرت تیم و توانایی پنهان تیم هستند. اما دلیلی پیدا کردیم که به ما نشان داد همیشه هم اینطور نیست، و باید بیشتر به این مساله دقت کنیم.

▬ این مطلب را هم بخوانید: آنالیز فوتبال برای پیش بینی و بت: آموزش 12 نکته مهم آنالیز بازی فوتبال

چه فرضیه های دیگری را اشتباها مطرح کردیم که اکنون باید آنها را مورد سوال قرار دهیم؟

توزیع پواسون را در نظر بگیرید. به نظر می رسید برای داده های ما مناسب است اما وقتی میانگین به ثمر رساندن گل و واریانس آنها را تجزیه و تحلیل کردیم به نتیجه ی جالبی رسیدیم: هم برای تیم میزبان و هم تیم مهمان، میانگین ها و واریانس ها یکسان نبود.

در هر دو مورد، کمی زیر-پراکندگی رخ داد. این مشکل میتواند یک مشکل بالقوه باشد و دلیلش هم یکی از فرضیهای اساسی در مورد توزیع پواسون است و آن این است که “باید فرض کنیم که میانگین و واریانس داده ها یکسان است”.

اگر واریانس بیشتر از میانه شود، توزیع هایی مثل توزیع بینومیال منفی معمولا مناسب به نظر میرسند. اگر واریانس کمتر از میانه باشد بهتر است از توزیع Conway-Maxwell Poisson استفاده کنیم.

علاوه بر این، ممکن است در نمونه ای بزرگ از بازی ها، میانه و واریانس گلهای زده شده ی NHL تمایل به برابری داشته باشند. نکته این است که یک شاید یک توزیع دیگر برای کاری که میخواهیم انجام دهیم بهتر باشد. بهتر است ذهن انعطاف پذیری داشته باشیم و یک راه حل را بدون در نظر گرفتن احتمالات دیگر قبول نکنیم.

نکته #۲: فرضیه های مدل خود در داده ها، توزیع ها و توابع را به چالش بکشید.

منابع حساب نشده‌ی تنوع را هم در نظر بگیرید

در نهایت میخواهیم منابع تنوع نتایج که قبلا به آنها توجه نکرده بودیم را مد نظر قرار دهیم. نظرتان در مورد چند مثال چیست؟ برای تازه کاران، فرض میکنیم که قدرت یک تیم یک توده‌ی غیر متمایز است. یعنی صدمات یا جابجایی بازیکنان را در نظر نمیگیریم. آی Edmonton Oilers میتواند هم سطح با Connor McDavid بازی کند یا نه؟ قطعا در هر کدام از این موقعیتها تغییر قابل توجهی رخ میدهد که مدل فعلی ما آن را نادیده گرفته است.

همچنین، فرض کردیم که انتظار گل خورده شده برای یک تیم همیشه یکسان است و توجهی به این نکردیم که بازی با کدام دروازه بان شروع شده است. این فرضیه چندان هم مفید نیست زیرا اینکه بازی با دروازه بان و دروازه بان پشتیبان شروع شود میتوانند تاثیرات متفاوتی ایجاد کنند. هر دو این عوامل نشان میدهند که عواملی هست که به آنها توجه نکرده ایم و با در نظر گرفتنشان میتوانیم مدل خود را ارتقا داده و به تصویر واضح تری برسیم.

همچنین میتوانیم قدرت برنامه، خستگی بازیکن، داوران، ارتفاع و عوامل دیگری که تا الان به آنها توجهی نکرده ایم را هم در نظر بگیریم. بهترین منابع پیدا کردن سر نخ در مورد اینکه به چه چیزی توجه کنیم دانش در مورد یک موضوع است. مدل ما نمیداند که یکی از تیم ها با دروازه بان پشتیبان بازی را شروع کرده و دو بازیکن اصلی آن مصدومیت دارند – اما شما میدانید.

نکته #۳: از دانشی که در مورد یک موضوع وجود دارد برای پیدا کردن منابع تغییر که به آنها توجهی نشده است استفاده کنید.

با استفاده از عقل سلیم و دانشی که در این حوزه وجود دارد به این مساله پرداختیم که چطور میتوانیم با دلایل بالقوه‌ی طوفان مغزی مدلمان را ارتقا داده و بفهمیم که چرا ممکن است قدرت پیش بینی کنندگی آن کم باشد. میتوانیم داده هایمان، توزیع خود، و فرضیهای خود را دوباره بررسی کنیم تا ببینیم که چه حوزه هایی هستند که فرصتهای زیادی برای ارتقا مدل ما دارند. وقتی آهسته آهسته روی این فرآیند کار کنیم و مشکلات اولیه را حل کنیم میتوانیم به سودآوری برسیم.

به این ترتیب، مدلسازی شکست میتواند مسیری باشد برای موفقیت نهایی شما، البته به شرط اینکه از اشتباهات خود درس بگیرید و تسلیم نشوید.