News

SpiegelMining: Rubriken, Unterrubriken, Themen, Keywords. Wie SpiegelOnline seine Artikel verdrahtet

Willkommen zu unserer vierten Runde SpiegelMining! Heute fangen wir an, uns der tatsächlichen, inhaltlichen Thematik der Artikel zu nähern. Wir werden gleich mehrere neue Merkmale aus den Artikeln erfassen. Damit werden wir erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir werden sehen, dass SpiegelOnline mehrere Arten der thematischen Sortierung hat.

In den letzten Artikeln hatten wir ja schon einiges an Aufbauarbeit geleistet und verschiedene Artikel-Merkmale betrachtet. Im ersten Artikel gab es eine Betrachtung von Rubriken, Veröffentlichungszeitpunkten und Textlängen. Im zweiten Artikel haben wir die beteiligten Autoren und Nachrichtenagenturen hinzugenommen und gelernt, wie man Beziehungen unter den Autoren visualisieren kann. Wir hatten uns beim Parsen darüber geärgert, dass die in den Artikeln nicht immer an der gleichen Stelle standen. Im dritten Artikel haben wir dann gemerkt, dass die verschiedenen Plätze, an denen die Autoren in den Artikeln stehen können, ein Ausdruck vom Zweiklassensystem der Artikel bei SpiegelOnline sind.

Die thematische Betrachtung, die wir heute anfangen, wird stark über die reine Betrachtung neuer Merkmale hinausgehen. Ich versuche ja neben den Spiegelforschungen immer, euch ein wenig mit auf die Reise der Data Science und der Visualisierung zu nehmen. Darum werden wir heute versuchen, auf den neuen thematischen Merkmalen Auswertungen zu fahren und daraus Visualisierungen zu erstellen. Dabei werden wir auf Schwierigkeiten stoßen, die sich ganz naturgemäß bei solcher Art Daten ergeben.

Nachdem wir dann ein Gefühl für die Sortierungsmerkmale und die Schwierigkeiten bekommen haben, werden wir die Schwierigkeiten im nächsten Artikel umschiffen. Dieser Artikel bildet also mit dem nächsten eine Einheit. Alles zusammen wäre für einen einzigen Artikel etwas viel gewesen. Auch Nichtinformatiker sollen das noch verdauen können.

In diesem und dem nächsten Artikel zusammen werden wir auch lernen, worauf man achten muss, wenn man über eine riesige und extrem komplexe Datenmenge einen Graphen der Themen rendern will – ähnlich zu dem Graphen, der damals das soziale Netz der Spiegel-Autoren dargestellt hat. Nur viel, viel, viel größer.

Folien zu meinem Vortrag "DataScience im öffentlichen Nahverkehr"

Hier gibt es den Foliensatz (PDF, ca. 800kb) meines Vortrages im Bonner DataScience-Meetup. Leider ist er um ein paar Bilder ärmer, da ich die Veröffentlichtungsrechte für ein paar der Bilder bis jetzt nicht zugesprochen bekommen habe. Das ist normal nicht meine Art, unvollständige Folien online zu stellen, aber kann ja nicht immer alles klappen.

Nochmal danke für die rege Teilnahme am Vortrag, gerne wieder! 8-)