
Pipeline zur Vereinfachung des Datendownloads im Krebsgenom-Atlas (TCGA) vereinfacht Navigation für Forschende
Unter dem Titel „TCGADownloadHelper: Simplifying TCGA data extraction and preprocessing" wurde ein neuer Artikel unserer externen Doktorandin Alexandra Baumann veröffentlicht, der sich mit der Vereinfachung der Extraktion und Vorverarbeitung von Daten aus dem Krebsgenom-Atlas (TGCA) befasst.
Der Artikel basiert auf der jüngsten Forschungsarbeit von Alexandra Baumann, die angesichts eines neuen Praktikumsvertrages bei uns am ZMI nun auch unsere Affiliation, nebst der aus Rostock, innehat, Dr. Markus Wolfien und unserem Rostocker Kollegen, Prof. Dr. Olaf Wolkenhauer. Sie ist Teil unserer wissenschaftlichen Arbeit im Rahmen von PM4Onco - Personalized Medicine for Oncology, einem Forschungsprojekt der Medizininformatik-Initiative (MII), das sich der Weiterentwicklung der "Personalisierten Medizin" innerhalb der Behandlung onkologischer Erkrankungen verschrieben hat.
Die TCGA-Datenbank bietet umfassende genomische Daten für verschiedene Krebsarten. Komplexe Dateinamenskonventionen und die Notwendigkeit, unterschiedliche Datentypen mit individuellen Fall-IDs zu verknüpfen, können jedoch für Erstnutzer eine Herausforderung darstellen. Es wurden zwar andere Tools eingeführt, um die Handhabung von TCGA-Daten zu erleichtern, doch fehlt ihnen eine unkomplizierte Kombination aller erforderlichen Schritte.
Auf Basis dessen entwickelte unser Team eine optimierte Pipeline, die das Cart-System des Genomic Data Commons (GDC)-Portals für die Dateiauswahl und das GDC Data Transfer Tool für den Datendownload nutzt. Wir verwenden das vom GDC-Portal bereitgestellte Sample Sheet, um die standardmäßigen, undurchsichtigen Datei-IDs und Dateinamen durch von Menschen lesbare Case-IDs zu ersetzen. Hierbei wurde eine Pipeline erstellt, die anpassbare Python-Skripte in einem Jupyter-Notebook und einer Snakemake-Pipeline für die ID-Zuordnung sowie die Automatisierung von Datenvorverarbeitungsaufgaben integriert.
Die hier entwickelte Pipeline vereinfacht den Prozess des Datendownloads und beinhaltet einen Case-ID-Filterschritt, wodurch der Umgang mit multimodalen Datensätzen, die sich auf einzelne Patient:innen beziehen, erleichtert wird. Somit reduziert die Pipeline den Aufwand für die Vorverarbeitung der Daten erheblich und ermöglicht den Forschenden eine effiziente Navigation durch die Komplexität der TCGA-Datenextraktion und -Vorverarbeitung.
Den vollständigen Artikel finden Sie hier.