Time-Series Healthcare Data Imputation using Deep Learning
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [en]
This case study’s primary objective was to examine how different models, especially deep learning models, are able to reconstruct missing data from a healthcare dataset at various missingness levels. Three traditional methods and four deep learning models were evaluated on the PhysioNet 2012 ICU dataset, with generated missingness levels of 10%, 30%, 50%, and 80%.
Three error metrics were used to evaluate imputation performance: Mean Absolute Error, Mean Squared Error, and Mean Relative Error, along with runtime efficiency. Additionally, the best-performing model’s imputed dataset was used in a downstream classification task to examine how imputation accuracy affects classification performance. A Random Forest classifier was used to predict patient mortality and was evaluated using accuracy, ROC AUC, and F1 macro score.
The results showed that GRIN achieved the lowest imputation error across all metrics and missingness levels, outperforming traditional and established time-series imputation models. However, GRIN’s high imputation performance did not translate into higher classification accuracy compared to the original dataset with mean imputation. This suggests that although an imputation model can reconstruct missing data effectively, it does not necessarily lead to better predictive performance, because the model may overfit to patterns in the training data that do not align with the features relevant for the classification task, or because the imputed values may introduce biases that affect the downstream model’s decision boundaries.
Abstract [sv]
Denna uppsats primära mål var att undersöka hur olika modeller, särskilt djupinlärningsmodeller, kan rekonstruera saknade data från ett sjukvårdsdataset vid olika nivåer av saknad data. Tre traditionella metoder och fyra djupinlärningsbaserade metoder testades på PhysioNet 2012 ICU-datasetet, med simulerade nivåer av saknade data på 10%, 30%, 50% och 80%.
Tre felmått användes för att utvärdera imputationsprestanda: medelabsolutfel, medelkvadratfel och medelrelativt fel, samt även körtidseffektivitet. Dessutom användes den bäst presterande modellens imputerade dataset i en efterföljande klassificeringsuppgift för att undersöka hur imputationsnoggrannhet påverkar klassificeringsprestanda. En Random Forest-klassificerare användes för att förutsäga patientdödlighet och utvärderades med hjälp av träffsäkerhet, ROC AUC och F1-makrovärde.
Resultaten visade att GRIN uppnådde det lägsta imputationsfelet över alla mått och nivåer av saknad data, och överträffade både traditionella och etablerade tidsseriebaserade imputationsmodeller. Däremot resulterade GRIN:s höga imputationsprestanda inte i högre klassificeringsnoggrannhet jämfört med den ursprungliga datamängden med medelvärdesimputering. Slutsatsen är att även om en imputationsmodell kan rekonstruera saknade data effektivt, leder detta inte nödvändigtvis till bättre prediktiv prestanda. Detta kan bero på att modellen överanpassar till mönster i träningsdatan som inte överensstämmer med de mest relevanta egenskaperna för klassificeringsuppgiften, eller att de imputerade värdena introducerar skevheter som påverkar klassificeringsmodellens beslut.
Place, publisher, year, edition, pages
2025. , p. 52
Keywords [en]
Data Imputation, Deep Learning, Time-series, Healthcare Data
Keywords [sv]
Dataimputering, Djupinlärning, Tidsserier, Sjukvårdsdata
National Category
Medical Informatics Engineering
Identifiers
URN: urn:nbn:se:hh:diva-56112OAI: oai:DiVA.org:hh-56112DiVA, id: diva2:1962230
Presentation
2025-05-23, D415, Kristian IV:s väg 3, Halmstad, 15:00 (English)
Supervisors
Examiners
2025-06-022025-05-282025-10-01Bibliographically approved