Missing data is a common problem for medical data sets, especially large ones. This issue is of major importance since it can influence the analysis and further use of the data, e.g., for machine learning purposes. There are various methods for recovering missing data.One such method is to remove observations with missing values, but this is not very usefulgiven the limited amount of data available. Another commonly used approach is the LastObservation Carried Forward (LOCF). But most such methods are not universal and may needadjustments to the data set at hand. This article describes the possibility of solving this problem in the case of multimodal time series of biomedical data coming from patients withsepsis. It describes and compares three approaches tailored to a sepsis dataset, which isanalyzed and finally used to build a sepsis prediction system based on clinical data routinelyrecorded in an intensive care unit.
Datele lipsă sunt o problemă comună pentru seturile de date medicale, în special pentru cele mari. Această problemă este de o importanță majoră, deoarece poate influența analiza și utilizarea ulterioară a datelor, de exemplu, în scopuri de învățare automată. Există abordări diferite pentru a trata datele lipsă. Una obișnuită este ștergerea observațiilor care conțin astfel de date, însă ea nu este aplicabilă atunci când volumul datelor este limitat. O altă abordare frecvent utilizată este “Last Observation Carried Forward (LOCF)”. Dar majoritatea acestor metode nu sunt universale și pot necesita ajustări la setul de date la îndemână. Această lucrare descrie posibilitatea abordării acestei probleme în cazul seriilor temporale multimodale de date biomedicale provenite de la pacienții cu sepsis. Ea descrie și compară trei abordări adaptate setului de date care este analizat și utilizat în cele din urmă pentru construirea unui sistem de predicție a sepsisului bazat pe date clinice înregistrate în mod obișnuit într-o unitate de terapie intensivă.