News

SpiegelMining: Wer, wann, was, mit wem? Das soziale Netz der SpiegelOnline-Redakteure

Ihr habt bestimmt schon mal beobachtet, dass es im Internet immer genau dann besonders knusprig wird, wenn personenbezogene Daten ins Spiel kommen 8-). Diesem Umstand eingedenk fügen wir unserem SpiegelMining heute die Autoren eines jeden Artikels hinzu. Und dazu führen wir auch gleich noch eine weitere, sehr schöne Art der graphischen Darstellung ein. Ob sich daraus auch überraschende Erkenntnisse ergeben – ihr dürft gespannt sein.

Was bisher geschah: Im letzten Artikel zum Thema haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir haben besprochen, dass wir aus den Artikeln Merkmale zum Auswerten herausziehen. Letztes mal waren das erstmal einfache Merkmale: Der Erscheinungszeitpunkt eines Artikels, dessen Rubrik und seine Textlänge. Bereits durch das Nebeneinanderhalten und Aufplotten dieser einfachen Merkmale sind wir auf Systematiken gestoßen, die für den einen oder anderen überraschend waren – nämlich, dass SpiegelOnline nach einem offensichtlich festen System lange und kurze Artikel nach Tageszeiten ordnet.

Dies ist erst der zweite Artikel, also bauen wir immer noch langsam unser grundlegendes Auswertungsgebäude auf, von dem wir später bei weiteren Auswertungen zehren werden. Obwohl wir alles noch aufbauen, wird es wie im letzten Artikel auch hier wieder ein paar Resultate geben, sonst macht es ja auch keinen Spaß.

Ich versuche ja immer, euch zumindest auf oberflächliche Weise auch ein bisschen am Technikteil teilhaben zu lassen. Also gibt es vor den eigentlichen Ergebnissen zunächst noch ein paar Anekdötchen des Auswertevorgangs selbst, damit ihr wisst, wie sowas grundlegend ablaufen kann.

SpiegelMining. Auch Spiegelredakteure feiern Weihnachten. Eine Analyse von 70.000 SpiegelOnline-Artikeln

Seit Mitte 2014 habe ich mehr als 70.000 Artikel von SpiegelOnline systematisch gespeichert. Jeden Tag kommen im Schnitt 100 dazu. Diese Artikelmasse werden wir in der nächsten Zeit auswerten und erforschen. Was herauskommt, ist eine tiefgreifende Analyse des Publikationsverhaltens des vielleicht größten Meinungsmachers Deutschlands.

Ich werde über die nächste Zeit in einer losen Blogartikel-Serie unter dem Namen SpiegelMining etwas greifbarer machen, wie SpiegelOnline funktioniert. Geplant ist ein SpiegelMining-Artikel alle zwei bis drei Wochen, bitte seid mir aber nicht böse, wenn das leicht variiert. Vielleicht finden wir sogar ein paar Sachen heraus, bei denen auch die Kollegen von SpiegelOnline zugeben müssen: „krass, das war nicht mal uns selbst so klar“. Zusätzlich werde ich verschiedene Methoden des Daten-Auswertens anhand des SpiegelOnline-Datensatzes plausibel, anschaulich und interessant machen – und zwar auch für Nicht-Informatiker.

Bei einigen der Auswertungen wird vielleicht „nur“ das rauskommen, was man sich schon vorher denken konnte. Bei anderen werden wir überraschende Ergebnisse erhalten. Und manchmal entdeckt man auch Systematiken da, wo man vielleicht überhaupt keine erwartet hat – ein Beispiel dafür findet sich schon in diesem Blogartikel.

"Säuberungen" in der Türkei - visualisiert

Dieser Plot enthält die verschiedenen Kategorien an Personen, die im Verlaufe der „Säuberungen“ in der Türkei ihres Amtes enthoben, festgenommen oder sonstwie kaltgestellt wurden. Die Zahlen kommen von Euronews. Nicht im Bild enthalten: 3212 Amateurfunker.

Anmerkung: Ich kann nicht sicher sagen, ob von den Nicht-Soldaten nicht doch irgendeiner mal geputscht hat – da ich davon aber nichts mitbekommen habe, gelten die hier zunächst als Nichtputscher. Hinweise sind gerne gesehen. Umgekehrt wird übrigens auch sicher nicht jeder der 6.000 verhafteten Militärangehörigen geputscht haben.

"Verschlüsselung" von SpiegelOnline-Bezahlartikeln extrem einfach knackbar

Seit ein paar Tagen gibt es auf SpiegelOnline Bezahlartikel ("Spiegel Plus"). Im vorliegenden Artikel beschreibe ich, wie diese verschlüsselt werden und wie man deren Verschlüsselung in Firefox vollautomatisch knacken kann.

Als Moral von der Geschicht gehen wir noch darauf ein, warum es für Portale wie SpiegelOnline entgegen aller Intuition trotzdem sinnvoll sein kann, eine derartig schlechte Verschlüsselung zu benutzen und warum Kommentare wie „die sind ja doof“ vielleicht etwas kurz gedacht sind.

Edit: Hier kommen gerade Fragen per Mail rein, warum ich das mit der Verschlüsselung überhaupt gemacht habe, Na dafür! Und dafür auch! Und für die Artikel, die da noch folgen. Ich hatte mich geärgert, dass ich beim automatisierten SpiegelOnline-Download bei manchen Artikeln nicht mehr automatisiert den Klartext lesen konnte. Das war auch schon alles.

:!: Disclaimer: Dieser Blogartikel soll nicht dazu anstiften, Spiegel Plus fortan gratis zu lesen. Wenn ihr das Angebot dort wahrnehmt, bezahlt es bitte auch. Mein Artikel dient als Proof of Concept für technisch interessierte User. Wenn man die Einfachheit der eingesetzten Verschlüsselung betrachtet ist außerdem davon auszugehen, dass sie einfach nur ein Testlauf bei SpiegelOnline ist, und irgendwann eine „richtige“ Verschlüsselung ausgerollt wird. Beschwert euch also nicht, wenn die hier gezeigte Entschlüsselung irgendwann nicht mehr funktioniert.