Som forventning til UEFA Euro 2024 bygger, venter fodboldverdenen spændt på at se, hvilket hold der tager trofæet hjem. En gruppe forskere -Florian Felice, Andreas Groll, Lars Magnus Hvattum, Christophe Ley, Gunther Schauberger, Jonas Sternemann, og Achim Zeileis—har brugt kraften ved maskinlæring til at forudsige resultaterne af denne prestigefyldte turnering. Deres omfattende undersøgelse anvender et maskinlæringsensemble til at forudsige resultaterne med øget nøjagtighed.

Forskningstilgang til prognoser

1. Dataindsamling

Forskerne begyndte med at indsamle omfattende data om tidligere UEFA EM-kampe. Dette datasæt omfatter kampresultater, holdstatistikker, spillerpræstationsmålinger og andre relevante faktorer fra tidligere turneringer. Derudover integrerede de aktuelle holddata, såsom seneste kampresultater, spillerformer og holdsammensætninger, for at sikre, at modellen afspejler den seneste information.

2. Feature Engineering

Feature engineering var et kritisk trin i deres proces, som gjorde det muligt for dem at udtrække meningsfulde variabler fra de rå data. Nøglefunktioner overvejet i modellen inkluderer:

  • Holdstyrkeindikatorer, som f.eks FIFA-ranglister og Elo-vurderinger.
  • Historisk præstation i UEFA turneringer.
  • Nye præstationsmålinger, herunder sejr/tab-forhold og målforskelle.
  • Spillerspecifik statistik, såsom scorede mål, assists og defensive handlinger.

3. Modelvalg

For at øge nøjagtigheden af ​​deres forudsigelser brugte forskerne en ensemble-tilgang, der kombinerede flere maskinlæringsmodeller. De primære modeller, der bruges i deres ensemble inkluderer:

  • Tilfældig skov: En alsidig model, der fanger komplekse interaktioner mellem variabler.
  • Gradient Boosting Machines (GBM): Effektiv til at forbedre forudsigelsesnøjagtigheden ved at fokusere på svære at forudsige tilfælde.
  • Neurale netværk: I stand til at detektere indviklede mønstre i dataene.

Ved at kombinere disse modeller udnytter ensemblet styrkerne ved hver enkelt, hvilket resulterer i et mere robust og pålideligt forudsigelsessystem.

4. Modeltræning og validering

Ensemblemodellen blev trænet ved hjælp af historiske data fra tidligere UEFA EM. For at validere modellens ydeevne brugte forskerne krydsvalideringsteknikker for at sikre, at den generaliserer godt til usete data. Dette trin var afgørende for at undgå overfitting og for at bekræfte, at modellen nøjagtigt kan forudsige fremtidige kampe.

5. Forudsigelser og analyse

Med den trænede model simulerede forskerne UEFA Euro 2024-turnering flere gange for at generere probabilistiske prognoser for hver kamp. Denne tilgang giver ikke kun forudsigelser for individuelle kampe, men estimerer også sandsynligheden for, at hvert hold går videre gennem etaperne og i sidste ende vinder turneringen.

Ekran Resmi 2024-06-14 16.25.34.png
Interaktiv grafik i fuld bredde

Hvem vinder EM 2024?

Maskinlæringsensemblemodellen giver mulighed for simulering af alle kampe i gruppefasen, bestemmer hvilke hold der går videre til knockout-stadierne og i sidste ende forudsiger vinderen. Ved at køre disse simuleringer 100,000 gange genererer modellen vindersandsynligheder for hvert hold.

Ekran Resmi 2024-06-14 16.25.23.png
Interaktiv grafik i fuld bredde

Resultaterne indikerer det Fransk vin er favorit til at vinde den europæiske titel, med en vindersandsynlighed på 19.2 %. England følger efter med en chance på 16.7 %, og værts-Tyskland står på 13.7 %. Søjlediagrammet nedenfor illustrerer vinder sandsynligheden for alle deltagende hold, med mere detaljeret information tilgængelig i den interaktive fuld-bredde version.

Nøglebedømmelser

Maskinlæringsensemblet producerede flere nøgleindsigter:

  • Favoritter og underdogs: Modellen fremhæver traditionelle fodboldkraftværker som stærke konkurrenter, mens den også identificerer potentielle mørke heste, der kan overraske fans.
  • Kritiske kampe: Visse matchups i gruppespillet og knockout-runder identificeres som afgørende, med udfald, der sandsynligvis vil påvirke turneringens progression markant.
  • Spillerens indflydelse: Individuelle spillerpræstationer, især fra nøglepositioner, har vist sig at have en væsentlig indflydelse på kampens resultater.

Konklusion

Arbejdet med Florian Felice, Andreas Groll, Lars Magnus Hvattum, Christophe Ley, Gunther Schauberger, Jonas Sternemann og Achim Zeileis demonstrerer maskinlæringens kraftfulde evner til at forudsige udfaldet af komplekse begivenheder som UEFA Euro 2024. Deres ensembletilgang, der kombinerer forskellige maskinlæringsmodeller, giver et robust og præcist forudsigelsessystem, der giver værdifuld indsigt i turneringens potentielle resultater.

Ressourcer