Wie wird man Medical Data Scientist, Daniela?

Unsere Kollegin Daniela Vogler hat dieses Jahr Ihren Abschluss in dem Bereich Medical Data Scientist an der Universität Heidelberg erfolgreich absolviert. In diesem Interview frage ich neugierig nach, wie läuft das Ganze ab, wie viel Zeit benötigte sie usw. Viel Spaß!

Warum hast du dich für den Lehrgang „Medical Data Science“ am Universitätsklinikum Heidelberg entschieden?

Das anwendungsbezogene und interdisziplinäre Gebiet „Medical Data Science“ liefert viele Möglichkeiten, aber auch Herausforderungen in unserer datengetriebenen Zeit und ist meiner Meinung nach eine tolle Ergänzung zu den vielseitigen Datenanalysen für Krankenhäuser, die wir bei Transact durchführen.

An dem Zertifikatslehrgang hat mir besonders gefallen, dass er wichtige Inhalte in kompakter Form vermittelt und somit sehr gut berufsbegleitend zu absolvieren ist. Außerdem war mir ein ausgewogenes Verhältnis von Theorie, also vor allem Statistik, und Praxis in Form von der Programmierung mit R wichtig.

Welche Potenziale siehst du für unsere Kund*innen?

In der medizinischen Forschung geht der Einsatz von Statistik schon lange weit über das Durchführen statistischer Tests nach dem Motto „Ist Behandlung A statistisch signifikant besser als Behandlung B?“ hinaus. Stichworte sind hier unter anderem Überlebenszeitanalysen und bayesianische Verfahren. Aber auch in der Behandlung von Patienten gewinnen moderne statistische Verfahren und Machine Learning – häufig auch als KI bezeichnet – an Bedeutung. Die wohl bekanntesten Beispiele sind OP-Roboter und Bildklassifizierung zur Beurteilung von Tumoren. Einige Universitätskliniken haben heute bereits ein ganzes Data Science-Team und Kurse in der statistischen Programmierung mit R sind vielerorts fester Bestandteil für Medizinstudenten oder Promovierende. Ich bin sicher, dass der Bedarf an solchem Know-how noch weiter steigen wird. Transact kann hier als kompetente Ansprechpartnerin begleiten und unterstützen – ganz wie wir das im Bereich Business Intelligence seit Langem tun.

Besondere Synergien sehe ich, wenn es darum geht, Ergebnisse aus komplexen Modellen übersichtlich darzustellen. Hier können wir unsere langjährige Erfahrung im Aufbau von Dashboards mit Qlik Sense nutzen und Ergebnisse zum Beispiel direkt dort einbinden.

Dort sehe ich übrigens auch ganz ohne die Nutzung komplexer Data Science-Verfahren noch Potenzial: Warum sollen Self-Service-Analysen und Dashboards, wie wir sie für das Controlling bereitstellen, nicht auch für medizinische Daten geeignet sein und Klinikern einen Mehrwert liefern?

Womit hast du dich in deiner Abschlussarbeit befasst?

Meine Projektarbeit behandelt die „Detektion von Sepsiserkrankungen in Intensivpatienten“. Aufgabenstellung war, eine Sepsis bereits einige Stunden vor dem dokumentierten Ausbruch (festgemacht an einer entsprechendem Blutkultur oder dem Auftreten einer Organdysfunktion) zu erkennen. Dazu habe ich verschiedene Vorgehensweisen bei der Datenaufbereitung und unterschiedliche Machine Learning-Modelle miteinander verglichen. Das ging von Entscheidungsbäumen über Random Forests bis zu so genannten Gradient Boosting Machines. Das sind Verfahren, die mehrere Entscheidungsbäume miteinander kombinieren, um eine möglichst gute Vorhersage zu erhalten. Außerdem habe ich versucht herauszufinden, welche Merkmale besonders wichtig für die Vorhersage einer Sepsis sind. Gar nicht so einfach, wenn teilweise mehrere hundert oder gar tausend Entscheidungsbäume zu einer einzigen Vorhersage kombiniert werden! Ich finde explainable AI, also Methoden, die helfen zu verstehen, wie ein Modell zu seinen Ergebnissen gekommen ist, aber sehr spannend und wichtig, ganz besonders in der Medizin.

Was waren die größten Herausforderungen im Datenhandling?

Da sind mir zwei typische Herausforderungen begegnet, vor denen man bei der Arbeit mit realen Daten (im Gegensatz zu für Schulungszwecke „hübsch“ aufbereiteten Daten) häufig steht:

Erstens fehlten viele Werte, weil zum Beispiel nicht alle Blutwerte bei allen Patienten erhoben wurden oder nur in größeren zeitlichen Abständen. Manche Modelle können damit umgehen, andere, wie z. B. die von mir verwendeten Random Forrests, aber nicht. Dann muss man entscheiden, wie man weiter vorgeht – z. B. ob man nur vollständige Datensätze verwendet oder Daten imputiert, also mithilfe statistischer Verfahren auffüllt. Dazu habe ich mehrere Ansätze verglichen.

Zweitens lagen die Daten als Zeitreihen vor, da Blutwerte und Vitalparameter im Allgemeinen natürlich mehrfach erhoben werden. Diese lassen sich so für die von mir verwendeten Modelle nicht verwenden, sodass ich mir überlegen musste, wie die Daten sinnvoll zu je einer Beobachtung pro Patienten zusammengefasst werden konnten.

Und das sind typische Situationen in der Data Science?

Das würde ich schon sagen, ja. Daten liegen nun einmal eher selten genau so vor, wie man sie gerade bräuchte. Dann muss man sein Vorgehen geeignet anpassen.

Welche typischen Schwierigkeiten gibt es sonst noch bei der Beschaffung von Daten?

Gerade im medizinischen Bereich können datenschutzrechtliche Bedenken Projekte ausbremsen. Der Schutz sensibler personenbezogener Daten ist natürlich absolut berechtigt und wichtig. Andererseits kann eine stärkere Datennutzung in der medizinischen Forschung und Versorgung einen großen Nutzen für die Patienten haben. Die DSGVO lässt hierfür zwar durchaus gewisse Spielräume, die Umsetzung kann jedoch recht aufwendig sein – insbesondere, wenn Daten aus mehreren Quellen zusammengefasst werden sollen. Wenn dann noch einzelne Landeskrankenhausgesetze die Regeln zusätzlich verschärfen, wird die Situation nicht gerade besser. Klare, verbindliche Standards zur rechtssicheren Pseudo- bzw. Anonymisierung wären da wünschenswert.

Und wie viel Zeit hast du für das Studium gebraucht?

Der Zertifikatslehrgang ging insgesamt über ein Jahr und die Bearbeitungszeit der Projektarbeit betrug drei Monate. 

Die flexible Zeiteinteilung, die mir unser Geschäftsführer, Tim Tenelsen, ermöglicht hat, und einige Tage Freistellung haben erheblich dazu beigetragen, dass dies gut berufsbegleitend zu bewältigen war.

Was kann man sich unter einem Zertifikatslehrgang an einer Universität vorstellen?

Es handelt sich um eine Weiterbildung auf akademischem Niveau für Teilnehmer, die bereits ein Studium abgeschlossen und Berufserfahrung gesammelt haben. Das ist ähnlich wie ein Masterstudiengang, geht aber thematisch weniger in die Breite und führt aufgrund des geringeren Umfangs nicht zu einem akademischen Grad.

Das Programm in Heidelberg ist vor wenigen Jahren quasi als Ableger aus dem dortigen Masterstudiengangs in medizinischer Biometrie hervorgegangen. Dieser befasst sich mit klassischer Biostatistik, wie sie unter anderem in der pharmazeutischen Industrie relevant ist.

Wie viele Teilnehmer wart ihr?

Wir waren zehn Personen. Dadurch war die Atmosphäre sehr persönlich und die Betreuung eng.

Wie könnte man das Wissen aus dem Studiengang noch vertiefen?

Akademisch wäre das sicherlich mit einem einschlägigen Masterstudiengang möglich – z. B. einem Master in allgemeiner, d. h. nicht speziell medizinischer, Data Science oder in Heidelberg mit dem eben schon erwähnten themenverwandten Master in medizinischer Biometrie.

Ich persönlich ziele allerdings eher darauf ab, das Erlernte jetzt möglichst breit in die Praxis zu bringen. Und natürlich fachlich auf dem aktuellen Stand zu bleiben – ganz wichtig bei einer Disziplin, die sich ständig weiterentwickelt. Dabei hilft zum Glück eine große Data Science-Community mit diversen Foren, Webinaren, Contests usw. Im Moment denke ich zum Beispiel über einen Beitrag zum diesjährigen RStudio Table Contest nach. Aber das ist noch nicht ganz spruchreif, mehr wird also nicht verraten…

Und irgendwann möchte ich mich nochmal näher mit Python befassen. Das ist eine weitere Programmiersprache, die – ebenso wie R – große Bedeutung in dem Bereich hat.

Möchtest du uns sonst noch etwas sagen?

Ich bedanke mich ganz herzlich bei der Transact für die großartige Unterstützung!

Und ich freue mich sehr auf die kommende Zusammenarbeit mit unseren Kunden und Partnern an alten wie neuen Themen.

Close-up, angled view of a window on a white building.
Close-up of the corner of a white, geometric building with both sharp points and round corners.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

2 + vier =