hh.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Predicting Premier League’s match outcome via machine learning: New chess-inspired features can enhance predictions
Högskolan i Halmstad, Akademin för informationsteknologi.
Högskolan i Halmstad, Akademin för informationsteknologi.
2025 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [en]

This thesis explores how machine learning models can be used to predict footballmatch outcomes. Using data from 1,738 Premier League matches across four anda half seasons, we compare a baseline Random Forest classifier based on the workof Baboota & Kaur [1] with our own Random Forest model enhanced by dynamic,context-aware features. These include Elo-based strength ratings, form trends,team play-style, and adjusted performance metrics relative to the opponent. Toaddress class imbalance, especially the underrepresentation of draws, we appliedclass weighting and a custom probability threshold. For evaluation, we used atime-aware fixed split: 60% of the data for training, 20% for validation, and thefinal 20% for testing. After tuning the model using the validation set, we retrainedon 80% and evaluated on the final 20%. On this test set, our final model achieveda macro F1-score of 0.50, outperforming the baseline model. The most notableimprovement was in predicting draws, where the baseline achieved an F1-scoreof 0.10 and our final model reached 0.29. To ensure robustness, we conducted15-fold time series cross-validation. This revealed a more nuanced picture: thefinal model had a higher mean macro F1-score across folds (0.441 vs. 0.424),although the difference was not statistically significant. Feature engineering, es-pecially with Elo-based and form-differentiated variables, improved class balanceand interpretability. SHAP analysis further illustrated how context-rich featuresin the final model contributed more distinctly to predictions than the baseline’sstatic attributes. This study demonstrates that thoughtfully engineered featurescan lead to more balanced football outcome predictions.

Abstract [sv]

Denna rapport undersöker hur maskininlärningsmodeller kan användas för attförutsäga resultat i fotbollsmatcher. Med data från 1 738 Premier League-matcheröver fyra och en halv säsong jämför vi en baslinjemodell baserad på en replikaradRandom Forest-klassificerare från Baboota & Kaur [1] arbete med vår egen Ran-dom Forest-modell, som har förbättrats med dynamiska och kontextmedvetnaegenskaper. Dessa inkluderar Elo-baserade styrkebetyg, formtrender, lagens spel-stil och justerade prestationsmått i relation till motståndaren. För att hantera klas-sobalans, särskilt den låga förekomsten av oavgjorda matcher, använde vi klassvik-tning och ett anpassat sannolikhetströskelvärde. För utvärdering använde vi entidsbaserad uppdelning: 60% av datan för träning, 20% för validering och de sista20% för testning. Efter att ha finjusterat modellen med hjälp av valideringsdatantränade vi om modellen på 80% av datan och utvärderade den på de sista 20%.På testdatan uppnådde vår slutgiltiga modell ett makro-F1-värde på 0,50, vilketöverträffade baslinjemodellen. Den mest anmärkningsvärda förbättringen sågsvid förutsägelser av oavgjorda matcher, där baslinjemodellen hade ett F1-värdepå 0,10 och vår slutmodell nådde 0,29. För att säkerställa robusthet genomfördevi en 15-faldig tidsseriekorsvalidering. Detta visade en mer nyanserad bild: denslutgiltiga modellen hade ett högre genomsnittligt makro-F1-värde över foldsen(0,441 jämfört med 0,424), även om skillnaden inte var statistiskt signifikant.Funktionsdesignen, särskilt de som baserades på Elo och formdifferentiering, för-bättrade klassbalansen och tolkbarheten. SHAP-analys visade dessutom hur dekontextuella egenskaperna i slutmodellen bidrog tydligare till förutsägelserna änbasmodellens statiska attribut. Studien visar att noggrant designade funktionerkan leda till mer balanserade förutsägelser av fotbollsresultat.

Ort, förlag, år, upplaga, sidor
2025.
Nationell ämneskategori
Annan teknik Artificiell intelligens
Identifikatorer
URN: urn:nbn:se:hh:diva-56235OAI: oai:DiVA.org:hh-56235DiVA, id: diva2:1965104
Handledare
Examinatorer
Tillgänglig från: 2025-06-09 Skapad: 2025-06-07 Senast uppdaterad: 2025-10-01Bibliografiskt granskad

Open Access i DiVA

fulltext(791 kB)319 nedladdningar
Filinformation
Filnamn FULLTEXT02.pdfFilstorlek 791 kBChecksumma SHA-512
36a6c82dfa964b13fb81c34d2ec4b033b08dfaa1caa46386bcb84eeb1d898787fef8d9c1edfc86e277f750c7554ecbb17057c39ad796a93d5bb0908fec3ba000
Typ fulltextMimetyp application/pdf

Av organisationen
Akademin för informationsteknologi
Annan teknikArtificiell intelligens

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 320 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 307 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf