Als verwachting voor UEFA Euro 2024 bouwt, wacht de voetbalwereld reikhalzend uit welk team de trofee mee naar huis zal nemen. Een groep onderzoekers –Florian Felice, Andreas Grol, Lars Magnus Hvattum, Christophe Leij, Günther Schauberger, Jonas Sternemann, en Achim Zeileis– hebben de kracht van machinaal leren gebruikt om de uitkomsten van dit prestigieuze toernooi te voorspellen. Hun uitgebreide onderzoek maakt gebruik van een machine learning-ensemble om de resultaten met grotere nauwkeurigheid te voorspellen.
Onderzoeksbenadering van prognoses
1. Gegevensverzameling
De onderzoekers begonnen met het verzamelen van uitgebreide gegevens over eerdere UEFA European Championship-wedstrijden. Deze dataset bevat wedstrijdresultaten, teamstatistieken, prestatiestatistieken van spelers en andere relevante factoren uit eerdere toernooien. Bovendien integreerden ze actuele teamgegevens, zoals recente wedstrijdresultaten, spelersformulieren en teamsamenstellingen, om ervoor te zorgen dat het model de nieuwste informatie weerspiegelt.
2. Functie-engineering
Feature-engineering was een cruciale stap in hun proces, waardoor ze betekenisvolle variabelen uit de onbewerkte gegevens konden extraheren. De belangrijkste kenmerken die in het model worden overwogen, zijn onder meer:
- Teamsterkte-indicatoren, zoals FIFA-ranglijsten en Elo-beoordelingen.
- Historische prestaties in UEFA-toernooien.
- Recent prestatiestatistieken, waaronder winst-/verliesverhoudingen en doelverschillen.
- Spelerspecifieke statistieken, zoals gescoorde doelpunten, assists en verdedigende acties.
3. Modelselectie
Om de nauwkeurigheid van hun voorspellingen te vergroten, gebruikten de onderzoekers een ensemble-aanpak, waarbij meerdere machine learning-modellen werden gecombineerd. De belangrijkste modellen die in hun ensemble worden gebruikt, zijn onder meer:
- Willekeurig bos: Een veelzijdig model dat complexe interacties tussen variabelen vastlegt.
- Gradiëntverhogende machines (GBM): Effectief voor het verbeteren van de nauwkeurigheid van voorspellingen door zich te concentreren op moeilijk te voorspellen gevallen.
- Neurale netwerken: In staat om ingewikkelde patronen in de gegevens te detecteren.
Door deze modellen te combineren, benut het ensemble de sterke punten van elk, wat resulteert in een robuuster en betrouwbaarder voorspellend systeem.
4. Modeltraining en validatie
Het ensemblemodel werd getraind met behulp van historische gegevens uit vorige Europese kampioenschappen van de UEFA. Om de prestaties van het model te valideren, gebruikten de onderzoekers kruisvalidatietechnieken, waardoor het goed generaliseerde naar onzichtbare gegevens. Deze stap was cruciaal om overfitting te voorkomen en om te bevestigen dat het model toekomstige matches nauwkeurig kan voorspellen.
5. Voorspellingen en analyse
Met het getrainde model simuleerden de onderzoekers de UEFA Euro 2024-toernooi meerdere keren om probabilistische voorspellingen voor elke wedstrijd te genereren. Deze aanpak levert niet alleen voorspellingen op voor individuele wedstrijden, maar schat ook de waarschijnlijkheid in dat elk team de fasen doorloopt en uiteindelijk het toernooi wint.
Wie wint het EK 2024?
Het machinaal lerende ensemblemodel maakt de simulatie van alle wedstrijden in de groepsfase mogelijk, waarbij wordt bepaald welke teams doorgaan naar de knock-outfase en uiteindelijk de winnaar wordt voorspeld. Door deze simulaties uit te voeren 100,000 keer genereert het model de winstkansen voor elk team.
De resultaten geven aan dat Frankrijk is de favoriet om de Europese titel te winnen, met een winstkans van 19.2%. Engeland volgt met een kans van 16.7%, en gastland Duitsland heeft een kans van 13.7%. Het onderstaande staafdiagram illustreert de winstkansen voor alle deelnemende teams, met meer gedetailleerde informatie beschikbaar in de interactieve versie over de volledige breedte.
Belangrijkste bevindingen
Het machine learning-ensemble heeft verschillende belangrijke inzichten opgeleverd:
- Favorieten en underdogs: Het model benadrukt traditionele voetbalkrachtpatsers als sterke kanshebbers en identificeert ook potentiële duistere paarden die fans kunnen verrassen.
- Kritieke wedstrijden: Bepaalde matchups in de groepsfase en knock-outrondes worden als cruciaal aangemerkt, waarbij de uitkomsten waarschijnlijk de voortgang van het toernooi aanzienlijk zullen beïnvloeden.
- Spelerimpact: Het blijkt dat de prestaties van individuele spelers, vooral vanaf sleutelposities, een substantiële invloed hebben op de wedstrijdresultaten.
Conclusie
Het werk van Florian Felice, Andreas Groll, Lars Magnus Hvattum, Christophe Ley, Gunther Schauberger, Jonas Sternemann en Achim Zeileis demonstreert de krachtige mogelijkheden van machine learning bij het voorspellen van de uitkomsten van complexe evenementen zoals de UEFA Euro 2024. Hun ensemble-aanpak, waarbij verschillende machine learning-modellen worden gecombineerd, biedt een robuust en nauwkeurig voorspellingssysteem dat waardevolle inzichten biedt in de potentiële uitkomsten van het toernooi.
Bronnen