Jalkapallon MM-kisat 2018: Avarea ratkaisi voittajan

Thomas Lauronen Analytiikka, Avarea, SAS, Viya

Asiantuntijamme Thomas Lauronen avaa blogissaan Nordic Hack in SAS Viya-kilpailuun osallistuneen joukkueemme (kirjoittajan lisäksi: Julius Nieminen, Pauli Pekkala & Antti Tikanmäki) rakentamaa Jalkapallon MM-kisat 2018 tulosennustemallia. Mikä joukkue nousee korkeimmalle? Lue alta niin se(kin) selviää.

Jalkapallon MM-kisat ovat jo täydessä käynnissä, mutta me täällä Avarealla jännitämme muita vähemmän – ennustimme kisat etukäteen jo helmikuussa. Onnittelut Espanjalle.

Tai ainakin näin siis teoriassa. Itse asiassa rakentamassamme simulaatiossa pelasimme MM-kisat 10 000 kertaa, joka vastaa yli 109 vuotta peliaikaa. Simulaation tuloksilla pystyimme arvioimaan kaikkien 32:n maan todennäköisyydet viedä World Cup -pokaali voitokkaana kotiin.

Turnaus pelataan kuitenkin vain kerran, ja ensimmäiset tulokset ovat jo sisältäneet yllätyksiä. Meksiko kukisti kestosuosikki Saksan, väkiluvultaan Helsinkiä pienempi Islanti pysäytti Messin Argentiinan ja Brasilian tähtisikermä joutui niinikään tyytymään 1-1 tasapeliin Sveitsiä vastaan. Ja niin: Espanjan valmentaja potkaistiin pihalle vain muutamaa päivää ennen kisoja. Jalkapallon ennustaminen ei siis ole yksinkertaista; etenkään kerralla pelattavan tunauksen kohdalla.

Otimme kuitenkin haasteen vastaan ja kokoonnuimme helmikuussa pöydän ääreen pohtimaan parasta tapaa rakentaa malli, joka ennustaisi kisojen tulokset. Keskustelimme menneiden vuosien tuloksien käytöstä, ja tulimme nopeasti siihen johtopäätökseen että vuosikymmeniä sitten pelattujen otteluiden ennustava vaikutus on heikkoa. Esimerkiksi se, että Länsi-Saksa ja Tsekkoslovakia pelasivat 11.06.1958 Ruotsin MM-kisoissa 2-2 tasapelin ei anna meille juuri mitään merkityksellistä tietoa. Paitsi tietysti kisojen aikana käytäviin knoppitieto-keskusteluihin – niiden voittajaennusteet ovat sitten täysin oma lukunsa.

Näin ratkaisimme voittajan

Päädyimme rakentamaan malliamme pelaajien kautta: syötimme siihen yli 17 000 pelaajan tiedot ja yhdistimme ne tuhansiin otteluihin, joissa nämä pelaajat olivat pelanneet. Opetimme siis koneemme tunnistamaan pelaajien attribuutteja, jotka joukkuetasolla ennustavat todennäköistä tulosta. Asiasta kiinnostuneimmat voivat käydä nappaamassa saman datasetin itselleen Kagglesta.

Sitten huomasimmekin yllättävän ongelman. Helmikuussa yhtäkään joukkuetta ei oltu vielä nimetty kisoihin. Toisin sanoen olimme kehittäneet hienon mallin johon meidän piti vain tiputtaa joukkueiden pelaajakokoonpanot… Mutta kokoonpanoja ei ollutkaan saatavilla. Takaraja joukkuiden nimeämiselle oli 4.6. – aivan liian pitkä aika odottaa! Mutta mitä jos ennustaisimmekin myös joukkueet etukäteen?

Ratkaisumme ongelmaan oli yksinkertainen. Keräsimme listan pelaajista jotka olivat pelanneet karsinta- tai ystävyysotteluita kunkin joukkueen paidassa viimeisen 12 kuukauden aikana. Tämä lista edusti omaa parhainta arvaustamme siitä ketkä todennäköisimmin lähtisivät Venäjälle kisaamaan maailmanmestaruudesta.

Joukkueet rakennettuamme pystyimme myös tarkastelemaan niitä pelaajien atribuuttien mukaan.

Kuvaaja 1 ja selite: Ruutu- ja janakaavion päät kuvaavat joukkueen parhainta ja heikointa pelaajaa ’overall’ attribuutin mukaan asteikolla 0-100, ja ruudun viiva koko joukkueen mediaania.

Jalkapallon MM-kisat 2018 Avarea

Kuvaaja 2: Joukkueiden pelaajien keskiarvomarkkinahinta miljoonissa euroissa. Tyypillisen Espanjan maajoukkuepelaajan ostaa 30€ miljoonalla. Tällä hinnalla ostaisi vaikka koko Panaman maajoukkueen ja rahaa jäisi vielä reippaasti ylikin.

Jalkapallon MM-kisat 2018: Pelaajien keskiarvohinnat - Avarea

Nyt kaikki ainekset olivat kasassa. Rakensimme simulaation logiikan MM-kisojen mukaiseksi eli laitoimme joukkueet oikeisiin lohkoihin ja piirsimme sisään tunauskaavion. Laatikko kiinni ja virtuaaliset Ronaldot ja Neymarit juoksemaan yhteensä satojatuhansia kilometrejä 10 000 simulaation aikana. Oikeat kisat kestävät kuukauden, mutta oma simulaatiomme oli ohi minuuteissa. Tehokasta vai mitä?

Koneoppimisen voimin päädyimme seuraaviin todennäköisyyksiin:

  • Espanja 19.53%
  • Saksa 18.59%
  • Ranska 14.63%
  • Brasilia 11.99%
  • Argentiina 10.47%
  • Belgia 9.44%
  • Portugali 5.85%
  • Kroatia 3.57%
  • Englanti 2.42%
  • Uruguay 0.69%
  • Kolumbia 0.57%
  • Sveitsi 0.45%
  • Tanska 0.41%
  • Puola 0.37%
  • Serbia 0.28%
  • Senegal 0.23%
  • Marokko 0.21%
  • Venäjä 0.10%
  • Meksiko 0.08%
  • Ruotsi 0.07%
  • Japani 0.02%
  • Tunisia 0.01%
  • Etelä-Korea 0.01%
  • Costa Rica 0.01%

Huonoja uutisia siis Perun, Nigerian, Islannin, Saudi Arabian, Egyptin, Australian, Panaman, tai Iranin kannattajille – nämä joukkueet eivät voittaneet kisoja 10 000 yrityksen jälkeen kertaakaan!

Jalkapallon MM-kisat 2018 & muut ennusteet

Toisaalta Espanjan voiton todennäköisyys ei ole ennusteessamme sekään ylivoimainen. Esimerkiksi poliittisista ennusteistaan tunnettu Nate Silverman ennusti 2014 MM-kisojen voittajaksi Brasiliaa 45% todennäköisyydellä, mutta muistamme mitä Belo Horizonten illassa tuona vuonna tapahtui kun Saksa murjoi kotiyleisön suosikin 7-1 (jotkut ehkä haluaisivat unohtaa – anteeksi muistutuksesta).

Videopelijätti Electronic Arts laittoi myös polygoni-lusikkansa pikselikeittoon tekemällä oman ennusteensa FIFA 2018 pohjautuvalla kisapäivityksellään, 2018 FIFA World Cupilla. Menemättä syvällisesti prosessiin; simulaation mukaan finaalissa toisensa kohtaavat Ranska ja Saksa – pokaalin pokannee Gallian Kukon jälkipolvi (viittaamme tässä Éric Cantonaan). Kärkikolmikon tasolla olemme peliyhtiön kanssa samaa mieltä, mutta uskomme omaan paremmuusjärjestykseemme.

Kaikkea voi siis sattua, joten kyllä meillä täällä Avareallakin löytyy vielä kisatunnelmaa.

Hieman lisää aiheesta lausontojen kera ePressissä.

Nordic Hack in SAS Viya on SAS:in yrityksille suunnattu showcase innovointi -kilpailu. Jokainen osallistuva yritys-tiimi esittelee oman konseptin Viyan toiminnallisuuksiin pohjautuen.

Blogi-postauksetUutisia analytiikastaLue lisää osaamisestamme!Lue lisää palveluistamme!