Projekt

Adrian Graap, Johannes Herkner - Data Science Semesterprojekt

Analyse und Vorhersage von Flugverspätungen

  • Modul / Lehrveranstaltung: Projekt DataScience
  • Semester: 1.-3. Semester
  • Jahr: 2021

Das Projekt verfolgt die Idee, Verspätungen an Flughäfen vorherzusagen, um Fluggästen und allen weiteren Beteiligten eines Fluges eine bessere Planbarkeit zu ermöglichen. Als Quelle für die Daten dienten Flugdaten des U.S. Department of Transportation's (DOT) von 2015, sowie Wetterdaten des National Centers for Environmental Information (NOAA). Das Ziel war es, die Verspätungen in Klassen einzuteilen (pünktlich, wenig Verspätung, …, extreme Verspätung) und anhand dieser Klassen eine ungefähre Angabe über die voraussichtliche Verspätung vorherzusagen. 
Die ursprünglichen Flugdaten waren aber teilweise fehlerhaft oder unvollständig. Manche Flüge enthielten ein fehlerhaftes Kürzel für den Flughafen, andere wiederum eine ungültige Tailnumber (Identifikationsnummer für ein Flugzeug). Zudem wurden Zeit- und Datumsangaben anders formatiert und es wurden Informationen über das Wetter in die Ursprungsdaten integriert. Für jeden Flug wurden die Informationen des vorherigen Fluges des entsprechenden Flugzeuges gespeichert, um dadurch einen Einblick in mögliche Verspätungsursachen für den aktuellen Flug zu erhalten. All diese Schritte werden in einer umfangreichen Pipeline abgearbeitet. 
Nach dieser umfangreichen Datenintegration, -bereinigung und -korrektur wurden verschiedene Machine-Learning-Algorithmen angewandt, um eine bestmögliche Vorhersage zu erstellen. Die Auswahl der besten Merkmale erfolgte dabei durch eine umfangreiche Datenexploration anhand verschiedener Visualisierungen. 
Durch ein Ungleichgewicht der Verteilung der Verspätungen (die allermeisten Flüge sind pünktlich oder nahezu pünktlich - diese Ungleichheit wird durch die Einteilung in Klassen weiter verstärkt) musste von einer Klassifizierung mit mehreren Klassen zu einer Klassifizierung mit zwei Klassen (pünktlich oder verspätet) ausgewichen werden. Dabei wurden verschiedene Arten von Klassifikationen und jeweils verschiedene Ausprägungen getestet (z.B. Linear discriminant analysis, Nearest-Neighbor-Verfahren oder Entscheidungsbäume). Schlussendlich stellten sich der Random-Forest-Classifier und der XG-Boost-Classifier als am zuverlässigsten heraus. Leider war es dennoch nicht möglich, eine sehr verlässliche Vorhersage der Verspätungen zu erstellen. Zukünftig könnten die Ergebnisse weiter verbessert werden, in dem zusätzliche Daten  aus anderen Quellen in die Analyse und Vorhersage einbezogen werden.