Action disabled: source

News

Ein kleiner Technologiestack für DataScience-Heimprojekte

Ich bin jetzt ziemlich weit damit, den Mailhaufen abzuarbeiten, den ich im Nachgang zu meinem BahnMining-Vortrag gekriegt habe. Die mit Abstand am häufigsten gestellte Frage, die mich erreicht hat, war die nach einer kurzen Beschreibung meines Techstacks, bzw. einer verallgemeinerten kurzen Beschreibung, wie man technisch an sowas herangeht. Also gibt es hierfür vorweg mal einen eigenen Blogpost. Ich unterteile die vier Phasen Download, Parsing, Zusammenführung, und zum Schluss die Analyse an sich. Alsdann:

Video und Folien meines 36C3-Vortrags "BahnMining"

Dieser Post enthält das Material zu meinem Vortrag „Bahnmining – Pünktlichkeit ist eine Zier“ vom 36. Communication Congress. Ich muss sagen, dass die Erfahrung dermaßen intensiv war, dass ich das selbst erstmal verdauen muss, und das meine ich ganz positiv. Felix unterstellt hier, dass ich sichtlich gerührt gewesen sei, und das trifft vollumfänglich zu.

Wir hatten den fettesten Saal mit Platz für 5000 Leute, der war komplett voll, und die Stimmung war herrlich. Der Gänsehautmoment für mich persönlich waren in Wirklichkeit zwei: Als ich beim Schlusswort war, war es im Saal so still, man hätte eine Stecknadel fallen hören können. Wow. Und als sich nach Ende des Vortrags die Leute von ihren Sitzen erhoben, musste ich echt schlucken. Danke, danke, danke. Once in a lifetime experience.

Danke auch noch mal an die Leute vom Congress, die den besten und professionellsten Service liefern, den ich je bei einer Konferenz erlebt habe – von Sälen über Technik über Simultanübersetzungsteams bis hin zu sofort-Liveübertragung draußen vor dem Saal, als der wegen Überfüllung dichtgemacht werden musste. Respekt.

Ich habe noch verschiedenste Fragen aus dem Chat vom CCC gemailt bekommen, die es nicht mehr in die Livesendung gepackt haben. Sobald ich Zeit habe, versuche ich einen Blogpost mit Antworten nachzuschieben, sofern technisch und mathematisch möglich. Ich versuche auch, auf die Mails zu antworten, die reingekommen sind, bitte seht mir nach, wenn es etwas dauert.

Hier noch eine Presseschau (lange nicht erschöpfend und da kommen grade diverse nach, ich werde das aber nicht schaffen, alles nachzuhalten): SpiegelOnline, FAZ, Heise, Golem, Zeit.

Zum Material:

  • Hier gibt es die Vortragsfolien als PDF (5.3 MB). Ich habe zwei kleine Fehler direkt korrigert. Zum einen hat ein Pfeil nicht auf Leipzig, sondern auf Riesa gezeigt. Mea Culpa. Ich war schon immer schlecht in Geographie. Zum andern hatte ich mich am Anfang verklickt beim Zählen der Stops pro Bahnhof, ist jetzt auch korrigiert ich habe die Folie jetzt nochmals bearbeitet und gegen Fernverkehrszahlen ausgetauscht, weil ich so einen Didaktikbruch einsparen kann, denn der Rest des Vortrags geht nun mal um Fernverkehr. DANKE an alle, die das gemailt haben (und weiterhin mailen, denn die meisten gucken den Vortrag auf YouTube und sehen diesen Hinweis nicht :-))!
    • Liebe Medienvertreter, aus gegebenem Anlass: Um meine Vorträge ansprechend zu halten, habe ich sehr wenig Text in meinen Folien (man kann entweder Folien lesen, oder mir zuhören). Darum: Es gilt das gesprochene Wort! Wer weder die Zeit für ein Interview aufbringen will, noch 45 Minuten Vortrag zu hören bereit ist, braucht aus meiner Sicht auch nicht darüber berichten. Beispiel: Hört mal genau nach, ob die in den Folien angegebene Requestanzahl real war, oder ob ich daran demonstriert habe, wie man es nicht macht. ;-)
  • Hier könnt ihr wieder Feedback zum Vortrag geben! – Ich würde mich freuen. Achtung: Das sind keine Schulnoten, 5 ist das beste, 1 ist das schlechteste.
  • Der Originalmitschnitt des Vortrages auf media.ccc.de (nutzt den wann immer möglich, der CCC betreibt extra eine eigene Infrastruktur dafür, die nicht abhängig von Google ist).

Und hier die deutsche Youtube-Version im deutschen Originalton direkt eingebettet (war eigentlich die CCC-Version, die zerhaut mir aber das Layout):

Hier noch die Liste an Fragen, die der Signal-Angel meines Vortrages mir auf den Weg gegeben hat:

  1. Möglichkeit der Korrelation von ausgefallenen/verspäteten Stops und Sparpreis-Preisen? Kann ich leider nicht machen, weil ich die Preise nicht habe. Wäre aber interessant :-)
  2. Sind die langstrecken-Fremdanbieter , bspw. #flixtrain, nicht in der IC-Aufstellung enthalten? Nach meiner Kenntnis nein. Die ICs sind explizit ICs.
  3. Es gibt immer wieder Gerüchte, dass Reisende in einem verspäteten Zug sitzen, der DB-Navigator jedoch Pünktlichkeit anzeigt. Hast Du mal stichprobenartig untersucht, ob die von der DB herunter geladenen Daten auch mit der Realität überein stimmen? Stichprobenartig ja. Ich bin in 2019 häufiger auf den verschiedensten Strecken Bahn gefahren und habe diese Fahrten natürlich in der Datenbank angeguckt. Für diese war sie akkurat.
  4. Für den Fahrgast ist ja auch wichtig, Anschlüsse zu kriegen. Geben verfügbare Daten eine Auswertebasis für Verbindungen mit Umsteigen? Indirekt. Man könnte eine generelle Anschlussimulation fahren, indem man guckt, wieviele der züge z.B. in der nächsten halben Stunde nach geplanter Ankunft hätten erreicht werden können. Aber so richtig gut geht das nur, wenn man Passagierdaten hat, die ich leider nicht habe.
  5. Im Ruhrgebiet passiert es schon mal, dass eine verspätete S-Bahn einige Bahnhöfe überspringt, um Zeit aufzuholen. Wie würde man sowas statistisch messen? Ähnlichwie bei der Scheuerwende. Hier kam es darauf an, Serien von fehlenden Halten am Anfang / Ende einer Fahrt zu ausfindig zu machen und zu messen. Das Muster hier wäre ebenfalls sehr charakteristisch: Ausgefallene Halte irgendwo in der Mitte einer Fahrt, und dann gehts wieder weiter.
  6. Die Schweizer Bahn lässt ICEs mit einer gewissen Verspätung nicht mehr ins Land, also nach Interlaken. Wie gross ist da der Beitrag zu den prinzipiellen ICE Ausfällen? Keine Ahnung, ich habe keine Daten aus der Schweiz, und auf dem letzten Deutschen Bahnhof wird der Zug ja noch ankommen, das ist also kein Ausfall.
  7. Ist bekannt, wie viel Prozent der Verspätung im Nahverkehr wirklich Bahnverschuldet sind? Mit der Frage meine ich, wie viel denn Kundenverschuldet sind. Also durch türe offen halten oder ähnliches? Es gibt APIs, über die man auch Verspätungsgründe abrufen kann, das habe ich aber nicht gemacht.
  8. Hast du auch Daten bzgl. Fahrgastzahlen in einzelnen Zügen auswerten können? Nein, ich habe leider keine Fahrgastdaten.

Koordinaten vom "BahnMining"-Vortrag auf dem 36C3

Mein Vortrag "Bahnmining" auf dem 36C3 findet am 28. Dezember um 22:10 Uhr im Saal „Ada“ statt. Das ist ein ziemlich großer, wenn man sich mal ein paar Bilder ergoogelt. Ich bin beeindruckt!

Diverse Zusatzinfos:

36c3-Vortrag: BahnMining - Pünktlichkeit ist eine Zier

Ha, jetzt isses raus. Ich habe mich schon gewundert, warum plötzlich so viele Leute denken, ich würde auf dem 36C3 einen Vortrag über Bahndaten halten – und dann stellt sich raus: Der CCC hat seinen halfnarp rausgebracht, in dem alle Vorträge drin stehen. Tja, also, äh, dann: Ich halte auf dem 36C3 einen Vortrag über Bahndaten. :-) Wann und in welchem Saal, steht noch nicht fest. Der Vortrag wird vermutlich wieder gestreamt und in diverse Sprachen simultanübersetzt. Sobald ich zu alledem mehr weiß, informiere ich an dieser Stelle.

Seit Anfang 2019 habe ich jeden einzelnen Halt jeder einzelnen Zugfahrt auf jedem einzelnen Fernbahnhof in ganz Deutschland systematisch gespeichert. Inklusive Verspätungen und allem drum und dran. Und die werden wir in einem bunten Vortrag erforschen und endlich mal wieder ein bisschen Spaß mit Daten haben.

Rechtlicher Hinweis: Es liegt eine schriftliche Genehmigung der Bahn vor, von ihr abgerufene Rohdaten aggregieren und für Vorträge nutzen zu dürfen. Inhaltliche Absprachen oder gar Auflagen existieren nicht.

Die Bahn gibt ihre Verspätungen in „Prozent pünktlicher Züge pro Monat“ an. Das ist so radikal zusammengefasst, dass man daraus natürlich nichts interessantes lesen kann. Jetzt stellt euch mal vor, man könnte da mal ein bisschen genauer reingucken. Stellt sich raus: Das geht! Davids Datensatz umfasst knapp 20 Millionen Halte - mehr als 50.000 pro Tag. Wir haben die Rohdaten und sind in unserer Betrachtung völlig frei. Der Vortrag hat wieder mehrere rote Fäden.

  1. Wir vermessen ein fast komplettes Fernverkehrsjahr der deutschen Bahn. Sinn ist keinesfalls Bahn-Bashing - wer einen Hassvortrag gegen die Bahn erwartet, ist in dieser Veranstaltung falsch. Wir werden die Daten aber nutzen, um die Bahn einmal ein bisschen kennenzulernen. Die Bahn ist eine riesige Maschine mit Millionen beweglicher Teile. Wie viele Zugfahrten gibt es überhaupt? Was sind die größten Bahnhöfe? Wir werden natürlich auch die unerfreulichen Themen ansprechen, für die sich im Moment viele interessieren: Ist das Problem mit den Zugverspätungen wirklich so schlimm, wie alle sagen? Gibt es Orte und Zeiten, an denen es besonders hapert? Wann und wo hapert es besonders? Wo fallen ganze Züge aus?
  2. Es gibt wieder mehrere Blicke über den Tellerrand, wie bei meinen vorherigen Vorträgen auch. Ihr werdet wieder ganz automatisch und nebenher einen allgemeinverständlichen Einblick in die heutige Datenauswerterei bekommen und ich hoffe, möglichst viele von euch zur Auswertung öffentlich verfügbarer Daten zu inspirieren. Die Welt braucht Leute mit Ratio, die Analyse wichtiger als Kreischerei finden. Und darum beschreibe ich auch, wie man so ein durchaus aufwändiges Hobbyprojekt technisch angeht, Anfängerfehler vermeidet, und verantwortungsvoll handelt.

Ich würde mich freuen, möglichst viele von euch zu sehen. Und by the way: Nutzt den Halfnarp. Mit diesem Tool könnt ihr der CCC-Orga sagen, welche Talks ihr gerne sehen würdet, und so versuchen sie, die Raumplanung zu optimieren und zeitliche Kollisionen zu vermeiden.