hh.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Time-Series Healthcare Data Imputation using Deep Learning
Halmstad University, School of Information Technology.
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

This case study’s primary objective was to examine how different models, especially deep learning models, are able to reconstruct missing data from a healthcare dataset at various missingness levels. Three traditional methods and four deep learning models were evaluated on the PhysioNet 2012 ICU dataset, with generated missingness levels of 10%, 30%, 50%, and 80%.

Three error metrics were used to evaluate imputation performance: Mean Absolute Error, Mean Squared Error, and Mean Relative Error, along with runtime efficiency. Additionally, the best-performing model’s imputed dataset was used in a downstream classification task to examine how imputation accuracy affects classification performance. A Random Forest classifier was used to predict patient mortality and was evaluated using accuracy, ROC AUC, and F1 macro score.

The results showed that GRIN achieved the lowest imputation error across all metrics and missingness levels, outperforming traditional and established time-series imputation models. However, GRIN’s high imputation performance did not translate into higher classification accuracy compared to the original dataset with mean imputation. This suggests that although an imputation model can reconstruct missing data effectively, it does not necessarily lead to better predictive performance, because the model may overfit to patterns in the training data that do not align with the features relevant for the classification task, or because the imputed values may introduce biases that affect the downstream model’s decision boundaries.

Abstract [sv]

Denna uppsats primära mål var att undersöka hur olika modeller, särskilt djupinlärningsmodeller, kan rekonstruera saknade data från ett sjukvårdsdataset vid olika nivåer av saknad data. Tre traditionella metoder och fyra djupinlärningsbaserade metoder testades på PhysioNet 2012 ICU-datasetet, med simulerade nivåer av saknade data på 10%, 30%, 50% och 80%.

Tre felmått användes för att utvärdera imputationsprestanda: medelabsolutfel, medelkvadratfel och medelrelativt fel, samt även körtidseffektivitet. Dessutom användes den bäst presterande modellens imputerade dataset i en efterföljande klassificeringsuppgift för att undersöka hur imputationsnoggrannhet påverkar klassificeringsprestanda. En Random Forest-klassificerare användes för att förutsäga patientdödlighet och utvärderades med hjälp av träffsäkerhet, ROC AUC och F1-makrovärde.

Resultaten visade att GRIN uppnådde det lägsta imputationsfelet över alla mått och nivåer av saknad data, och överträffade både traditionella och etablerade tidsseriebaserade imputationsmodeller. Däremot resulterade GRIN:s höga imputationsprestanda inte i högre klassificeringsnoggrannhet jämfört med den ursprungliga datamängden med medelvärdesimputering. Slutsatsen är att även om en imputationsmodell kan rekonstruera saknade data effektivt, leder detta inte nödvändigtvis till bättre prediktiv prestanda. Detta kan bero på att modellen överanpassar till mönster i träningsdatan som inte överensstämmer med de mest relevanta egenskaperna för klassificeringsuppgiften, eller att de imputerade värdena introducerar skevheter som påverkar klassificeringsmodellens beslut.

Place, publisher, year, edition, pages
2025. , p. 52
Keywords [en]
Data Imputation, Deep Learning, Time-series, Healthcare Data
Keywords [sv]
Dataimputering, Djupinlärning, Tidsserier, Sjukvårdsdata
National Category
Medical Informatics Engineering
Identifiers
URN: urn:nbn:se:hh:diva-56112OAI: oai:DiVA.org:hh-56112DiVA, id: diva2:1962230
Presentation
2025-05-23, D415, Kristian IV:s väg 3, Halmstad, 15:00 (English)
Supervisors
Examiners
Available from: 2025-06-02 Created: 2025-05-28 Last updated: 2025-10-01Bibliographically approved

Open Access in DiVA

fulltext(248 kB)58 downloads
File information
File name FULLTEXT03.pdfFile size 248 kBChecksum SHA-512
b3c5c30caad406f5fc85eb91f78a6e8a84881a7b036baee4f870c0ea72170752e9d707a1f9bfee505c0595d514e0f52c4f75a7d2747f4e54f3e7448890706dbb
Type fulltextMimetype application/pdf

By organisation
School of Information Technology
Medical Informatics Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 63 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 191 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf