News

36c3-Vortrag: BahnMining - Pünktlichkeit ist eine Zier

Ha, jetzt isses raus. Ich habe mich schon gewundert, warum plötzlich so viele Leute denken, ich würde auf dem 36C3 einen Vortrag über Bahndaten halten – und dann stellt sich raus: Der CCC hat seinen halfnarp rausgebracht, in dem alle Vorträge drin stehen. Tja, also, äh, dann: Ich halte auf dem 36C3 einen Vortrag über Bahndaten. :-) Wann und in welchem Saal, steht noch nicht fest. Der Vortrag wird vermutlich wieder gestreamt und in diverse Sprachen simultanübersetzt. Sobald ich zu alledem mehr weiß, informiere ich an dieser Stelle.

Seit Anfang 2019 habe ich jeden einzelnen Halt jeder einzelnen Zugfahrt auf jedem einzelnen Fernbahnhof in ganz Deutschland systematisch gespeichert. Inklusive Verspätungen und allem drum und dran. Und die werden wir in einem bunten Vortrag erforschen und endlich mal wieder ein bisschen Spaß mit Daten haben.

Rechtlicher Hinweis: Es liegt eine schriftliche Genehmigung der Bahn vor, von ihr abgerufene Rohdaten aggregieren und für Vorträge nutzen zu dürfen. Inhaltliche Absprachen oder gar Auflagen existieren nicht.

Die Bahn gibt ihre Verspätungen in „Prozent pünktlicher Züge pro Monat“ an. Das ist so radikal zusammengefasst, dass man daraus natürlich nichts interessantes lesen kann. Jetzt stellt euch mal vor, man könnte da mal ein bisschen genauer reingucken. Stellt sich raus: Das geht! Davids Datensatz umfasst knapp 20 Millionen Halte - mehr als 50.000 pro Tag. Wir haben die Rohdaten und sind in unserer Betrachtung völlig frei. Der Vortrag hat wieder mehrere rote Fäden.

  1. Wir vermessen ein fast komplettes Fernverkehrsjahr der deutschen Bahn. Sinn ist keinesfalls Bahn-Bashing - wer einen Hassvortrag gegen die Bahn erwartet, ist in dieser Veranstaltung falsch. Wir werden die Daten aber nutzen, um die Bahn einmal ein bisschen kennenzulernen. Die Bahn ist eine riesige Maschine mit Millionen beweglicher Teile. Wie viele Zugfahrten gibt es überhaupt? Was sind die größten Bahnhöfe? Wir werden natürlich auch die unerfreulichen Themen ansprechen, für die sich im Moment viele interessieren: Ist das Problem mit den Zugverspätungen wirklich so schlimm, wie alle sagen? Gibt es Orte und Zeiten, an denen es besonders hapert? Wann und wo hapert es besonders? Wo fallen ganze Züge aus?
  2. Es gibt wieder mehrere Blicke über den Tellerrand, wie bei meinen vorherigen Vorträgen auch. Ihr werdet wieder ganz automatisch und nebenher einen allgemeinverständlichen Einblick in die heutige Datenauswerterei bekommen und ich hoffe, möglichst viele von euch zur Auswertung öffentlich verfügbarer Daten zu inspirieren. Die Welt braucht Leute mit Ratio, die Analyse wichtiger als Kreischerei finden. Und darum beschreibe ich auch, wie man so ein durchaus aufwändiges Hobbyprojekt technisch angeht, Anfängerfehler vermeidet, und verantwortungsvoll handelt.

Ich würde mich freuen, möglichst viele von euch zu sehen. Und by the way: Nutzt den Halfnarp. Mit diesem Tool könnt ihr der CCC-Orga sagen, welche Talks ihr gerne sehen würdet, und so versuchen sie, die Raumplanung zu optimieren und zeitliche Kollisionen zu vermeiden.

Der Fahrplan zum 33C3 ist da!

… und mein Vortrag „SpiegelMining – Reverse Engineering von Spiegel-Online“ findet am 28. Dezember 2016 um 21:45 Uhr in Saal 2 statt. Das ist Tag 2 des Fahrplans. Wer es nicht mehr nach Hamburg schafft oder in Hamburg nicht mehr in den Raum schafft: Details zum Stream werden hier und zur not auch im Fahrplan selbst noch rechtzeitig bekannt gegeben. 8-)

Hier ist die originale Beschreibung im 33C3-Fahrplan. Für alle, die nicht wissen, was der Fahrplan ist: Der ist das Vortragsprogramm für den 33C3. Der Fahrplan wird alle Nase lang aktualisiert, also kreidet es dem CCC nicht an, wenn im Fahrplan noch ein paar Fehler oder fehlende Bilder drin sind. Hier ist der Startpunkt vom 33C3-Fahrplan selbst, da kann man dann alle Tage, Speaker, Räume und so weiter sehen.

Was SpiegelMining angeht: Ihr versteht sicher, dass ich mich bis dahin mit neuen SpiegelMining-Blogartikeln hier zurückhalte. 8-)

33C3-Vortrag: "SpiegelMining - Reverse Engineering von SpiegelOnline"

Seit heute ist offiziell, was es auf dem diesjährigen Chaos Communication Congress (33C3) für Vorträge geben wird – und damit auch, dass ich dort wieder sprechen werde. Ich freue mich wieder total! Es wird um mein aktuelles Hobbyprojekt SpiegelMining gehen. Und das bedeutet auch, dass ich mir jetzt mal Gedanken um meine weitere Veröffentlichungsstrategie hier vor dem Vortrag machen muss.

Wie mein letzter CCC-Vortrag vor zwei Jahren wird auch der hier wieder mehrere rote Fäden haben, reich illustriert und für jedermann verständlich sein. Es geht nicht nur darum, SpiegelOnline reverse zu engineeren, sondern auch darum, eine anschauliche Intuition zu vermitteln, was mit der heutigen Daten-Auswerterei alles geht, und warum das bei allem Nutzen auch gesellschaftlich gefährlich ist.

Ihr könnt nämlich überhaupt nicht wissen was ihr über euch preisgebt, wenn ihr irgendwelche Daten veröffentlicht. Egal, wie uninteressant eure Daten für euch aussehen mögen – was man daraus lesen kann, entscheidet nicht ihr, sondern euer Gegner.

Genauere Koordinaten des Vortrages veröffentliche ich, sobald ich sie selber erhalte (der CCC arbeitet selbst noch am Fahrplan – Update: Hier gibt es jetzt die genauen Infos). Aber bis dahin könnt ihr der CCC-Orga beim erstellen des Fahrplans helfen, indem ihr im "halfnarp" zum 33C3 diejenigen Vorträge anklickt, die ihr interessant findet, und das Ergebnis submitted. Die Orga versucht anhand der Daten, den Fahrplan so zu erstellen, dass möglichst viele Kollisionen vermieden werden. (Für diejenigen, die sich fragen, was der 33C3-Fahrplan ist: Der ist das Programm des 33C3.)

PS.: Ich hatte in letzter Zeit ein paar nachfragende Mails bekommen, ob es vielleicht einen solchen Vortrag geben wird. Ich entschuldige mich bei allen, bei denen ich „vergessen“ habe, darauf zu antworten. Sorry :-) Ich wollte da nicht unnötig irgendeine Gerüchteküche befeuern, ohne zu wissen, ob es was wird, das ist sicher auch verständlich …