News

Explorierbare Corona-Daten

Ich habe in der letzten Woche knapp hundert Mails bekommen, ob ich die Corona-Fallzahlen nicht mal anschaulich auswerten könnte. Das gibt es in der Tat schon! Hier zwei Portale in aller Kürze. Bitte beachtet, dass die Messverfahren und auch die Informationspolitik sich von Land zu Land unterscheiden und die Vergleichbarkeit der Länder untereinander darum nicht immer gewährleistet ist (und im Übrigen auch in Relation zur Bevölkerungsstärke gesetzt werden müsste). Es steht aber zu hoffen, dass die Länder ihre individuellen Messverfahren nicht andauernd wechseln, so dass man in den Kurven sehr wohl gucken kann, wann denn in einem Land der Peak wohl erreicht ist.

  1. https://mackuba.eu/corona/ – Schlichtes Portal, in dem man Fallzahlen und Neuinfektionen pro Land übersichtlich in Charts darstellen kann. Sehr flott, Blanke Daten ohne Shi-shi.
  2. https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6 – Aufwändiges, toll designtes aber auch schwergewichtiges ArcGis-Dashboard mit geographischer Darstellung. Sehr schön gemacht, wirklich!

Möge jeder mit dem Portal glücklich werden, das ihm das beste deucht. :-)

Verschiedenste globale Aktiencrashs direkt nebeneinander

Weil es im Moment verschiedene Leute zu interessieren scheint, hier mal ein paar Aktiencrashs nebeneinander. So könnt ihr die Größenordnungen richtig einschätzen und solche Grafiken vermisse ich häufiger mal in den Medien. Das interessante bei so etwas sind nicht die absoluten Werte der Indizes, sondern wieviel Prozent Verlust sie ab ihrem individuellen Höchstwert machen.

In den folgenden beiden Grafiken (Stand: 10. März 2020 nach Börsenstart; nicht automatisch aktualisiert) sieht man, wieviel Verlust die beiden Indizes DAX (oben) und Dow Jones (unten) in verschiedenen Crashs angesammelt haben, Corona eingeschlossen. Alle fangen bei 0% Verlust an, und der zeitliche Startpunkt von allen wurde exakt aufeinandergelegt.

Neben den beiden großen, globalen Krisen habe ich relativ willkürlich als „Vergleichskrise“ noch den kleinen Rückschlag Ende 2018 mit eingebaut.

EDIT: Grafiken jetzt Stand 12. März 2020, abends.

Ein kleiner Technologiestack für DataScience-Heimprojekte

Ich bin jetzt ziemlich weit damit, den Mailhaufen abzuarbeiten, den ich im Nachgang zu meinem BahnMining-Vortrag gekriegt habe. Die mit Abstand am häufigsten gestellte Frage, die mich erreicht hat, war die nach einer kurzen Beschreibung meines Techstacks, bzw. einer verallgemeinerten kurzen Beschreibung, wie man technisch an sowas herangeht. Also gibt es hierfür vorweg mal einen eigenen Blogpost. Ich unterteile die vier Phasen Download, Parsing, Zusammenführung, und zum Schluss die Analyse an sich. Alsdann:

Video und Folien meines 36C3-Vortrags "BahnMining"

Dieser Post enthält das Material zu meinem Vortrag „Bahnmining – Pünktlichkeit ist eine Zier“ vom 36. Communication Congress. Ich muss sagen, dass die Erfahrung dermaßen intensiv war, dass ich das selbst erstmal verdauen muss, und das meine ich ganz positiv. Felix unterstellt hier, dass ich sichtlich gerührt gewesen sei, und das trifft vollumfänglich zu.

Wir hatten den fettesten Saal mit Platz für 5000 Leute, der war komplett voll, und die Stimmung war herrlich. Der Gänsehautmoment für mich persönlich waren in Wirklichkeit zwei: Als ich beim Schlusswort war, war es im Saal so still, man hätte eine Stecknadel fallen hören können. Wow. Und als sich nach Ende des Vortrags die Leute von ihren Sitzen erhoben, musste ich echt schlucken. Danke, danke, danke. Once in a lifetime experience.

Danke auch noch mal an die Leute vom Congress, die den besten und professionellsten Service liefern, den ich je bei einer Konferenz erlebt habe – von Sälen über Technik über Simultanübersetzungsteams bis hin zu sofort-Liveübertragung draußen vor dem Saal, als der wegen Überfüllung dichtgemacht werden musste. Respekt.

Ich habe noch verschiedenste Fragen aus dem Chat vom CCC gemailt bekommen, die es nicht mehr in die Livesendung gepackt haben. Sobald ich Zeit habe, versuche ich einen Blogpost mit Antworten nachzuschieben, sofern technisch und mathematisch möglich. Ich versuche auch, auf die Mails zu antworten, die reingekommen sind, bitte seht mir nach, wenn es etwas dauert.

Hier noch eine Presseschau (lange nicht erschöpfend und da kommen grade diverse nach, ich werde das aber nicht schaffen, alles nachzuhalten): SpiegelOnline, FAZ, Heise, Golem, Zeit.

Zum Material:

  • Hier gibt es die Vortragsfolien als PDF (5.3 MB). Ich habe zwei kleine Fehler direkt korrigert. Zum einen hat ein Pfeil nicht auf Leipzig, sondern auf Riesa gezeigt. Mea Culpa. Ich war schon immer schlecht in Geographie. Zum andern hatte ich mich am Anfang verklickt beim Zählen der Stops pro Bahnhof, ist jetzt auch korrigiert ich habe die Folie jetzt nochmals bearbeitet und gegen Fernverkehrszahlen ausgetauscht, weil ich so einen Didaktikbruch einsparen kann, denn der Rest des Vortrags geht nun mal um Fernverkehr. DANKE an alle, die das gemailt haben (und weiterhin mailen, denn die meisten gucken den Vortrag auf YouTube und sehen diesen Hinweis nicht :-))!
    • Liebe Medienvertreter, aus gegebenem Anlass: Um meine Vorträge ansprechend zu halten, habe ich sehr wenig Text in meinen Folien (man kann entweder Folien lesen, oder mir zuhören). Darum: Es gilt das gesprochene Wort! Wer weder die Zeit für ein Interview aufbringen will, noch 45 Minuten Vortrag zu hören bereit ist, braucht aus meiner Sicht auch nicht darüber berichten. Beispiel: Hört mal genau nach, ob die in den Folien angegebene Requestanzahl real war, oder ob ich daran demonstriert habe, wie man es nicht macht. ;-)
  • Hier könnt ihr wieder Feedback zum Vortrag geben! – Ich würde mich freuen. Achtung: Das sind keine Schulnoten, 5 ist das beste, 1 ist das schlechteste.
  • Der Originalmitschnitt des Vortrages auf media.ccc.de (nutzt den wann immer möglich, der CCC betreibt extra eine eigene Infrastruktur dafür, die nicht abhängig von Google ist).

Und hier die deutsche Youtube-Version im deutschen Originalton direkt eingebettet (war eigentlich die CCC-Version, die zerhaut mir aber das Layout):

Hier noch die Liste an Fragen, die der Signal-Angel meines Vortrages mir auf den Weg gegeben hat:

  1. Möglichkeit der Korrelation von ausgefallenen/verspäteten Stops und Sparpreis-Preisen? Kann ich leider nicht machen, weil ich die Preise nicht habe. Wäre aber interessant :-)
  2. Sind die langstrecken-Fremdanbieter , bspw. #flixtrain, nicht in der IC-Aufstellung enthalten? Nach meiner Kenntnis nein. Die ICs sind explizit ICs.
  3. Es gibt immer wieder Gerüchte, dass Reisende in einem verspäteten Zug sitzen, der DB-Navigator jedoch Pünktlichkeit anzeigt. Hast Du mal stichprobenartig untersucht, ob die von der DB herunter geladenen Daten auch mit der Realität überein stimmen? Stichprobenartig ja. Ich bin in 2019 häufiger auf den verschiedensten Strecken Bahn gefahren und habe diese Fahrten natürlich in der Datenbank angeguckt. Für diese war sie akkurat.
  4. Für den Fahrgast ist ja auch wichtig, Anschlüsse zu kriegen. Geben verfügbare Daten eine Auswertebasis für Verbindungen mit Umsteigen? Indirekt. Man könnte eine generelle Anschlussimulation fahren, indem man guckt, wieviele der züge z.B. in der nächsten halben Stunde nach geplanter Ankunft hätten erreicht werden können. Aber so richtig gut geht das nur, wenn man Passagierdaten hat, die ich leider nicht habe.
  5. Im Ruhrgebiet passiert es schon mal, dass eine verspätete S-Bahn einige Bahnhöfe überspringt, um Zeit aufzuholen. Wie würde man sowas statistisch messen? Ähnlichwie bei der Scheuerwende. Hier kam es darauf an, Serien von fehlenden Halten am Anfang / Ende einer Fahrt zu ausfindig zu machen und zu messen. Das Muster hier wäre ebenfalls sehr charakteristisch: Ausgefallene Halte irgendwo in der Mitte einer Fahrt, und dann gehts wieder weiter.
  6. Die Schweizer Bahn lässt ICEs mit einer gewissen Verspätung nicht mehr ins Land, also nach Interlaken. Wie gross ist da der Beitrag zu den prinzipiellen ICE Ausfällen? Keine Ahnung, ich habe keine Daten aus der Schweiz, und auf dem letzten Deutschen Bahnhof wird der Zug ja noch ankommen, das ist also kein Ausfall.
  7. Ist bekannt, wie viel Prozent der Verspätung im Nahverkehr wirklich Bahnverschuldet sind? Mit der Frage meine ich, wie viel denn Kundenverschuldet sind. Also durch türe offen halten oder ähnliches? Es gibt APIs, über die man auch Verspätungsgründe abrufen kann, das habe ich aber nicht gemacht.
  8. Hast du auch Daten bzgl. Fahrgastzahlen in einzelnen Zügen auswerten können? Nein, ich habe leider keine Fahrgastdaten.