News

Corona-Plots: Neujahrs-Update 2022

Es gibt wieder ein Neujahrs-Update zu meinen Corona-Plots unter http://www.dkriesel.com/corona. Der kumulative Plot ist jetzt ein Active-Cases-Plot geworden, weil das aus heutiger Sicht interessanter ist. Die Gesamtzahlen der Toten und Genesenen finden sich jetzt einfach im Untertitel. Im täglichen Plot sind die Y-Achsen jetzt umgekehrt, da die Active Cases bei Omikron interessanter sind als die viel spärlicher vorhandenen Tode. Der Impfplot enthält jetzt Boosterimpfungen und ist auf 90% der Bevölkerungsgröße des jeweiligen Landes normalisiert, damit man auf einen Blick sehen kann, ob ein Land mit den Impfen gut oder schlecht dabei ist. Viel Spaß!

Corona-Plots, kontinuierlich aktualisiert

Auf http://www.dkriesel.com/corona findet ihr jetzt kommentierte, mehrmals täglich aktualisierte Plots zu Covid19-Fallzahlen (vulgo: Corona) für eine weltweite Auswahl an Ländern. Auf diese Titelseitenvorschau kommt aus Platzgründen nur die Grafik für Deutschland mit ein paar knappen Interpretationshilfen. Auf der Unterseite selbst ist das ganze genauer beschrieben und mit mehr Beispielen untermalt.

Vorsicht: Wenn ihr weniger Neuinfektionen an Wochenanfängen und Wochenenden seht, würde ich darauf erstmal nichts geben, da ist nämlich Behördenwochenende (kein Witz!). Schwankungen in der täglich neu hinzukommenden Fallzahl, und auch sonst allen Daten, sind üblich! Ich würde generell eher auf längerfristige Trends achten. You have been warned.

Linker Plot. Die farbige Fläche ist die kumulative Covid19-Fallzahl. (unterteilt in aktive Fälle, Geheilte, Tode, wo die Länderdaten es erlauben). Breitet sich der Virus ungehindert aus, wächst die Fallzahl exponentiell; Wird die Fallzahl irgendwann nicht mehr größer, ist die Pandemie im jeweiligen Land eingedämmt (siehe z.B. China).

Dicke schwarze Linie: Wachstum der aktiven Fälle pro Tag, und zwar in Prozent, etwas geglättet. Wird die Ausbreitung nicht gebremst, schwankt das Wachstum in den meisten Ländern um ca. 25% am Tag. Stabile höhere Werte weisen auf besonders große Ansteckungszahlen hin, oder darauf, dass man im Vorhinein zu wenig auf Covid19 getestet hat. Stabile niedrigere Werte deuten auf eine Einbremsung der Ansteckungen hin.

Im rechten Plot in analogen Farben die täglich neu gemeldeten Fälle / Heilungen / Tode pro Tag, wiederum in geglätteter und Originalversion.

Hier noch mal der Link zur ausführlicheren Version mit mehr Ländern und Erklärungen.

SpiegelMining: Think big. Die Artikellandschaft der letzten zwei Jahre zum selberforschen

Heute werden wir Ordnung in das irrwitzige Themen-Chaos bringen, das mit mittlerweile ca. 80.000 Artikeln ganz natürlich entsteht. Und wir generieren eine riesige (!) Themenlandschaft, in der ihr selbst herumforschen könnt.

Dieser Artikel schließt direkt an den vorherigen Artikel an. Im vorherigen Artikel haben wir angefangen zu erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir haben dann festgestellt: Es gibt gleich mehrere verschiedene Artikelmerkmale, die SpiegelOnline zum ordnen verwendet. Rubriken waren das gröbste, Unterrubriken knapp dahinter. Eine nochmals feinere Einordnung waren die Themen. Themen waren keine Unter-Unterrubriken, sondern die wurden separat vergeben.

Es ging abermals feiner: Mit den keywords. Spiegel verteilt eine Liste von Schlagworten pro Artikel, die von den Redakteuren anscheinend frei vergeben werden konnten. Die Keywords schienen auf den ersten Blick sehr ergiebig und erfolgsversprechend. Sie hatten aber auch die typischen Probleme von „Datensätzen aus der freien Natur“ – Redundanzen, Ungenauigkeiten und Fehler.

In diesem Artikel werden wir auf diese Probleme eingehen und sie überwinden. Wir werden Ordnung in eine riesige Masse Keywords bringen und dazu noch eine sehr mächtige Art der visuellen Darstellung finden, die wir in späteren Artikeln dann nutzen werden – Es gibt ja bekanntlich nur eine Breitbandverbindung ins Gehirn: Die Augen.

SpiegelMining: Kassen- und Privat-Artikel. Das Zweiklassensystem von SpiegelOnline

Im letzten Artikel hatten wir uns gewundert, dass bei manchen Spiegelartikeln die Autorennamen ausgeschrieben unter dem Titel zu finden sind und andere Artikel nur eine Kürzelliste unten am Ende haben. Diesem Phänomen rücken wir heute zu Leibe, denn es gibt dahinter einen – für mich überraschenden – Sinn. Eigentlich wollte ich heute über was anderes schreiben, aber das gibt es dann nächstes mal.

Was bisher geschah: Das hier ist der dritte Artikel meiner Serie „SpiegelMining“. Im ersten Artikel haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir hatten Zusammenhänge zwischen Erscheinungszeitpunkt Rubrik Textlänge gefunden. Im zweiten Artikel haben wir die Autoreninformationen zu jedem Artikel hinzugezogen, das soziale Netzwerk zwischen den Autoren errechnet und analysiert.

Ich hatte mich beim Parsen der Autoren-Informationen rechtschaffen darüber geärgert, dass die Autoren zu den Artikeln manchmal ausgeschrieben direkt unter dem Titel stehen, und sehr oft einfach in einer kursiv geschriebenen Zeile unter dem Haupttext. Stehen die Autoren unten, sind sie auch meist nicht ausgeschrieben, sondern in Kürzeln verschleiert. Das hat mir wirklich Arbeit gemacht. Damit wir wieder reinkommen, wiederhole ich die zwei Beispiele aus dem letzten Artikel: