Tworzę program do prognoz w koszykówce

sobieslaw · Listopad 20, 2022

Czołem!

Postanowiłem utworzyć taki temat, aby pomóc sobie w systematycznej pracy nad programem mającym wyznaczać prawdopodobieństwa różnych zdarzeń w koszykówce. Liczę również na to, że będzie szansa aby wejść w interakcję z użytkownikami forum.

Co będę tutaj publikował? Najpierw mam zamiar dzielić się z Wami wynikami tzw. eksploracji danych, która stanowi wstępną fazę projektu. Będę publikował je w formie wizualizacji. Na pewno skłonią mnie do różnych spostrzeżeń i stawiania różnych hipotez, którymi też będę się tutaj dzielił. Jak już będę miał zautomatyzowane wykonywanie różnych obliczeń, to kto wie, może pokuszę się o opracowywanie analiz w odpowiednich działach forum.

Pierwsza część to pozyskanie danych, chcę je mieć w formie raportu pomeczowego tzw. "play-by-play", czyli co się wydarzyło i w jakim czasie. Dane surowe właśnie w takiej formie będę następnie przetwarzał i obrabiał, aby wyciągnąć z nich interesujące statystyki. Na pierwszy rzut pójdzie pewnie NBA

Na snucie dalszych planów przyjdzie czas, bo póki nie ma danych, to nie ma mowy o konkretach.

Jeśli chcecie za jakiś czas mieć wgląd do ciekawych statystyk niepublikowanych portalach o tematyce sportowej, to zapraszam do obserwowania tego wątku

sobieslaw · Grudzień 4, 2022

Pierwsza rzecz, jakiej się przyglądam, to zależność między kursami a różnicą zwycięstwa. To bardzo ogólna i prosta analiza, jednak pozwala na wykrycie długoterminowych tendencji bukmacherów do wystawiania kursów nieodzwierciedlających rzeczywistych prawdopodobieństw.

Poniższy wykres uwzględnia ostatnich 6 pełnych sezonów. Na osi x mamy prawdopodobieństwo zwycięstwa gospodarzy na podstawie średniego kursu. Na osi y różnica zwycięstwa.
Niebieska linia pokazuje ogólny trend. Jest bardzo zbliżony do liniowego, choć są oznaki odejścia od liniowości dla argumentów zbliżonych do 0 i 1.
Mam wątpliwości czy mamy tutaj symetrię, tzn. czy wysokość porażki przy prawdopodobieństwie powiedzmy 10% ma ten sam rozkład, co wysokość zwycięstwa przy prawdopodobieństwie 90%. Jeśli tej symetrii faktycznie by nie było (wymaga potwierdzenia szczegółowymi obliczeniami), to nawet lepiej, bo pewnie wyszłoby na to, że brak symetrii można wytłumaczyć marżą na kursy (czyli w powyższym przykładzie być może powinniśmy porównywać co się dzieje dla prawdopodobieństwa zwycięstwa gospodarzy równego 10% i np. 85%).

Rzuca się w oczy duża wariancja różnicy zwycięstwa. To dobrze, bo może część tej wariancji udałoby się objaśnić lepszym modelem.

przestrzalninja · Grudzień 4, 2022

sobieslaw, mam pytanie

studiowałeś może informatykę i ekonometrię albo coś w tym stylu?

sobieslaw · Grudzień 5, 2022

przestrzalninja napisał:
sobieslaw, mam pytanie studiowałeś może informatykę i ekonometrię albo coś w tym stylu?

P przestrzalninja studiowałem matematykę

Ściągnąłem dane z ostatnich 14 pełnych sezonów i dla każdego sezonu z osobna zbudowałem model regresji liniowej objaśniający różnicę zwycięstwa w zależności od prawdopodobieństwa zwycięstwa gospodarzy obliczonego na podstawie średniego kursu na gospodarzy w momencie rozpoczęcia meczu.
Poniższy wykres zestawia ze sobą wartości wyrazu wolnego (Intercept), nachylenia linii (Slope) oraz błędu średniokwadratowego (RMSE) poszczególnych modeli.

W ostatnich 3 sezonach widzimy zwiększające się wartości tangensa kąta nachylenia linii regresji. Można było to zauważyć w poprzednim wpisie:

Tworzę program do prognoz w koszykówce

Czołem! Postanowiłem utworzyć taki temat, aby pomóc sobie w systematycznej pracy nad programem mającym wyznaczać prawdopodobieństwa różnych zdarzeń w koszykówce. Liczę również na to, że będzie szansa aby wejść w interakcję z użytkownikami forum. Co będę tutaj publikował? Najpierw mam zamiar...

forum.bukmacherskie.com

na wykresie w dolnym wierszu, idąc od lewej do prawej widzimy, że kolejne linie (nie są to linie regresji, tylko wyznaczone inną metodą, ale to jest akurat nieistotny szczegół) są coraz bardziej "strome". Różnice są minialne, ale zauważalne.

Naturalnie wzrostom nachylenia linii odpowiada wartości wyrazu wolnego. Jeśli zwiększamy nachylenie, to linia za bardzo "ucieka" nam do góry na wysokich prawdopodobieństwach i musimy tę "nadwyżkę" zrekompensować przesuwając ją do dołu (czemu właśnie służy obniżenie wartości wyrazu wolnego), ale przy tym jednocześnie obniżamy prognozy dla niskich prawdopodobieństw (zwiększa się spodziewana różnica porażki).

WNIOSEK: widzimy krótkoterminową tendencję do zwiększania się średniej różnicy punktów między wygraną a przegraną drużyną w meczach posiadających wyraźnego faworyta. Na dobrą sprawę (choć to trochę dyskusyjne) trend ten zaczął się w sezonie 2017/18
Czy ten trend się utrzyma? Tego nie wiemy.

Co to oznacza dla bukmacherów?
Jeśli 5 lat temu mieliśmy mecz z kursem powiedzmy 1.05 na gospodarzy i handicapem powiedzmy -12.5 (przynajmniej wg modelu średnia różnica zwycięstwa dla 95% szansy na zwycięstwo wynosi 12.63 pkt.) przy którym kursy są sobie równe (powiedzmy 1.9 - 1.9), to obecnie handicap powinien być... (i tutaj da się to policzyć dokładnie, choć z wykresu tego nie widać) raczej -14.5 (w ostatnim sezonie średnia modelowa różnica zwycięstwa to 14.29 pkt)

Pojawia się pytanie:
1) Czy bukmacherzy zastosowali wspomnianą korektę i analogiczne korekty dla innych kursów?
2) Może jednak wspomnianej korekty nie należy stosować do wszystkich meczów o danym kursie, a wystarczy "punktowa" korekta w przypadku jedynie określonych drużyn, które podbijają średnie różnice zwycięstwa?

Inaczej mówiąc, może zjawisko o którym piszemy nie dotyczy większości drużyn, ale tylko części z nich - najsłabszych i najlepszych w lidze, które potrafią wygrywać/przegrywać większą liczbą punktów, niż robiły to najsłabsze i najlepsze drużyny z wcześniejszych lat?

Czyli mówiąc wprost mamy dwie alternatywy:
1) Albo bukmacherzy powinni zrobić korekty w liniach handicapu (to jest do sprawdzenia, czy tak zrobili)
2) Albo liga z bardziej wyrównanej zmieniła się w ligę z większymi faworytami, i większymi underdogami, którzy nie są dostatecznie "doceniani" przez bukmacherów (buki oferują kursy 1.05 gdy mogłyby powiedzmy 1.03) i ci faworyci nabijają wysokie różnice zwycięstw, podwyższając średnią w przeciągu całego sezonu dla całej ligi.

Tylko pytanie, ile takich meczów z podbiciem różnicy zwycięstwa musiałoby być, abyśmy zaobserwowali zauważalne zmiany w modelu dla całego sezonu (innymi słowy, ile musi być "outlierów", aby przez model przestały być oceniane jako outliery?) No właśnie.

Strzelam, że to jednak cała liga trochę się zmieniła i buki powinny trochę inaczej oferować handicapy niż kiedyś. A to czy tak się zadziało, jest tak jak wspomniałem do sprawdzenia.

EDIT:
Przesłanki za opcją nr 1 powyżej są następujące:
1) Wzrost RMSE w ostatnich sezonach (tj. różnica zwycięstwa różni od prognozy bardziej niż kilka lat temu)
2) To jest póki co hipoteza, ale może w ostatnich sezonach średnio pada więcej punktów, a im więcej punktów tym większa szansa na bardziej zdecydowane zwycięstwo którejś z drużyn (innymi słowy więcej punktów to krótsze akcje, a krótsze akcje to tak jak dłuższe akcje z wydłużonym czasem trwania meczu, a wydłużony czas trwania to więcej czasu dla faworyta na osiągnięcie większej przewagi)

michalkowalski · Grudzień 5, 2022

Nie znam się na matematyce, ale pozwolę sobie zadać Ci pytanie. Oczywiście nie zrozum to jako atak czy coś w tym stylu. Ale jaki ma sens prognozowanie czego kolwiek na podstawie wyników kilkunastu lat wstecz?

Thalion · Grudzień 6, 2022

michalkowalski napisał:
Nie znam się na matematyce, ale pozwolę sobie zadać Ci pytanie. Oczywiście nie zrozum to jako atak czy coś w tym stylu. Ale jaki ma sens prognozowanie czego kolwiek na podstawie wyników kilkunastu lat wstecz?

Nie jestem autorem ale napisze jedno zdanie: czy wiesz czym jest analiza techniczna dla graczy giełdowych i na czym polega ?

sobieslaw · Grudzień 7, 2022

michalkowalski napisał:
Nie znam się na matematyce, ale pozwolę sobie zadać Ci pytanie. Oczywiście nie zrozum to jako atak czy coś w tym stylu. Ale jaki ma sens prognozowanie czego kolwiek na podstawie wyników kilkunastu lat wstecz?

Dobre pytanie. Wszystko zależy od tego, jaki poziom szczegółowości chcemy mieć w prognozach.

Przykładowo, jeżeli chcemy szukać meczów w piłce nożnej, gdzie jest większa niż przeciętnie szansa na pokazanie przez sędziego czerwonej kartki, możemy postąpić następująco:
1. Znaleźć sędziego / sędziów, którzy chętniej niż inni dają czerwone kartki,
2. Znaleźć ligę / ligi, w których częściej niż w innych ligach piłkarze otrzymują czerwone kartki.

Podejście w punkcie nr 1 zakłada, że w typowaniu czerwonych kartek chcemy być dość wybiórczy; podejście nr 2 zakłada, że idziemy na ilość i liczymy na to, że statystyka zadziała na naszą korzyść.

W podejściu nr 1, aby ocenić danego sędziego na tle innych, prawdopodobnie wystarczą dane z 20-30 meczów każdego sędziego, więc często zmieścimy się w jednym sezonie.
W podejściu nr 2, aby ocenić ligę całościowo pod kątem czerwonych kartek, przypuszczam że najlepiej byłoby patrzeć na cały sezon i uśredniać dane z całego sezonu. Ale wtedy pojawia się problem: może to, co zaobserwowaliśmy w pojedynczym sezonie w danej lidze jest jakąś pojedynczą anomalią? Wtedy dane z tego sezonu należałoby porównać z tym, co działo się w kilku albo nawet kilkunastu poprzednich sezonach.

Można też na to spojrzeć z innej strony: są trendy krótko- i długoterminowe. Jeśli interesuje nas wyłapanie trendów krótkoterminowych (np. zidentyfikowanie drużyn będących "w gazie") to potrzebujemy mniej danych, a jeśli szukamy trendów długoterminowych (np. jak zmienia się liczba punktów zdobywanych w poszczególnych ligach), to potrzebujemy więcej danych.

michalkowalski · Grudzień 15, 2022

Witaj. Jakieś nowości w postępach?

Szukaj

Szukaj

Tworzę program do prognoz w koszykówce

Więcej opcji

sobieslaw

Użytkownik

sobieslaw

Użytkownik

przestrzalninja

Użytkownik

sobieslaw

Użytkownik

Tworzę program do prognoz w koszykówce

michalkowalski

Użytkownik

Thalion

Użytkownik

sobieslaw

Użytkownik

michalkowalski

Użytkownik