25. August 2023

GeMTeX - Entwicklung einer großen Textsammlung deutschsprachiger, medizinischer Texte aus der Patientenversorgung

Zum 1. Juni 2023 nahm das GeMTeX-Projekt zur Entwicklung der gleichnamigen Methodenplattform seine Arbeit auf. Es wird aus Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) gefördert.

Der German Medical Text Corpus, kurz: GeMTeX, setzt an der Stelle an, an der in der alltäglichen medizinischen Patientenversorgung zahlreiche Texte, etwa Arztbriefe und diverse Befunde, entstehen, diese für Forschung und Entwicklung jedoch nicht genutzt werden können, da eine Standardisierung fehlt.

Die Aufgabe wird es sein, jene medizinischen Texte aus der Versorgung automatisch zu erschließen und damit in anonymisierter Form für die Forschung verfügbar zu machen. Dafür müssen sie zunächst für Programme computergestützter Verarbeitung natürlicher Sprache (NLP) lesbar sein, wofür große Mengen an annotierten Texten aus der täglichen Patientenversorgung notwendig sind. Mit Einwilligung der Patient*innen werden die anfallenden Dokumente aus elektronischen Gesundheitsakten (ePA) gesammelt, mittels der Verarbeitung natürlicher Sprache datenschutzgerecht aufbereitet und in anonymisierter Form für die gemeinsame Nutzung aller GeMTeX-Standorte zur Verfügung gestellt. GeMTeX zielt demnach darauf ab, die zwei wesentlichen neuralgischen Stellen bisheriger Sprachmodelle - die Datenzugänglichkeit und die Datenannotation - aufzulösen.

Letztlich wird eine große annotierte Textsammlung deutschsprachiger, medizinischer Texte, gar der größte Textkorpus in Deutschland und sohin ein wertvolles Textrepertoire für die Wissenschaft entstehen.

Die IT-Infrastruktur, die während der Aufbau- und Vernetzungsphase der Medizininformatik-Initiative (MII) zwischen 2018 und 2022 aufgebaut worden ist, bietet hierbei die Möglichkeit, klinische Dokumente in großem Umfang zugänglich zu machen und sie mit systematischen Anmerkungen anzureichern.

Darüber hinaus wird GeMTeX eine zentrale technische und organisatorische Struktur schaffen, um anonymisierte Texte zu sammeln und sie richtlinienkonform zur Anreicherung zu bearbeiten. Mit der entstehenden Textdatenbank können KI-Modelle trainiert und auf ihre Nützlichkeit im klinischen Alltag überprüft werden.

Am Standort Dresden werden Textdokumente aus verschiedenen klinischen IT-Systemen zur Verfügung gestellt, annotiert und datenqualitätsgesichert hinterlegt. Ziel ist es, mittels einer effektiven Bewertung der Datenqualität eine Best-Practice-Definition zu liefern, welche die Anforderungen an die Datenanalyse, die Datenbereinigung und die Datenkontrolle widerspiegelt und somit einen praktischen Ansatz für die Datenverwaltung im Sinne eines kontrollierten Datenmanagements darstellt.