Dataset characteristics effect on time series forecasting: comparison of statistical and deep learning models
2023 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [en]
Time series are points of data measured throughout time in equally spaced periods. They present characteristics such as level, noise, trend, seasonality, and outliers. Time series forecasting is the attempt to predict single or multiple future values. It holds significant relevance in numerous fields,including, but not limited to, healthcare, finance, and weather forecasting. It has recently gained more attention due to the COVID-19 pandemic, which highlighted the importance of predicting and managing crises. Two distinct methods of forecasting utilise either statistical or deep learning models, and the debate about the best model is still inconclusive. This thesis aimed to explicate the benefits and drawbacks of each approach pertaining to singlestep and multi-step forecasting. The study applied four models, two of each method, on datasets of varying characteristics and measured their prediction accuracy and computing time. The prediction accuracy of each model was measured using commonly used evaluation metrics, including Root MeanSquare Error. Subsequently, the results were compared with the features of the datasets to identify possible interconnecting relations between the factors. The findings concluded that the deep learning models generally produced a more accurate prediction but required more processing power and computing time. Contrastingly, the statistical models' predictions were less accurate butmarginally faster. Furthermore, the forecast accuracy's most impactful characteristics were the dataset's trend and linearity. The code and datasets were published at: https://github.com/Adam20Taylor/BScThesis
Abstract [sv]
Tidsserier är punkter av data mätt under samma tidsintervall. De presenteraregenskaper så som nivå, brus, trend, säsongsvariation och avvikare.Tidsserieprognoser syftar till att försöka förutsäga ett eller fleranästkommande värden. Det har betydande relevans inom flera områden,inklusive, men inte begränsat till, sjukvård, ekonomi och väderprognoser. Dethar nyligen fått mer uppmärksamhet på grund av COVID-19 pandemin vilketbelyste vikten av att förutsäga och hantera kriser. Två metoder förförutspåendet är antingen genom statistiska- eller djupinlärningsmodeller ochdebatten om vilken modell som är bäst är ännu ofullständig. Huvudsyftet meddenna uppsatts var att klargöra för- och nackdelar med de tvåtillvägagångsätten, med avseende på både enstegs- och flerstegprognoser.Studien gick ut på att undersöka fyra modeller, två från varje metod, ochtillämpa dessa på datauppsättningar av varierande egenskaper. Modellernasberäkningstid mättes och deras prediktionsprecision utvärderades med hjälpav vanligen använda mått, som till exempel Root Mean Square Error.Resultaten jämfördes med datasetens egenskaper för att identifiera eventuellasamband. Analysen visade att djupinlärningsmodellerna i allmänhetproducerade noggrannare prognoser med nackdel av att de krävde merprocessorkraft och beräkningstid. I kontrast var de statistiska metodernamarginellt snabbare men de gav mindre exakta svar. Vidare visade det sig atttrend var den egenskapen som hade störst inverkan på prognosprecisionen.Koden och datauppsättningarna publicerades på:https://github.com/Adam20Taylor/BScThesis.
Place, publisher, year, edition, pages
2023. , p. 25
Keywords [en]
Time Series, Forecasting
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:hh:diva-51138OAI: oai:DiVA.org:hh-51138DiVA, id: diva2:1777115
External cooperation
Dizparc
Subject / course
Computer science and engineering
Educational program
Computer Science and Engineering, 300 credits
Supervisors
Examiners
2023-06-302023-06-282025-10-01Bibliographically approved