Video und Folien meines 33C3-Vortrags "SpiegelMining"

Dieser Post enthält das Material zu meinem Vortrag „SpiegelMining – Reverse Engineering von SpiegelOnline“ vom 33. Communication Congress. Aber erstmal vorweg: DANKE für die wieder unglaublich krasse Menge an Feedback! Ist wieder der Hammer. Es tut mir übrigens leid, dass so viele nicht mehr in den Raum gekommen sind – aber der Saal war leider bereits 20 Minuten vor Beginn komplett voll, und der CCC steht hier leider auch nicht über dem Brandschutz. Sorry. :-( Ich habe gehört, dass die Leute draußen dann spontan ein Public Viewing auf größeren Bildschirmen auf die Beine gestellt haben. Coole Aktion, das ist das, was den Congress ausmacht! Ich hoffe, es war dann trotzdem okay und keiner wurde enttäuscht.

Es sind drölfzig Mails mit diversen Auswertungsvorschlägen alleine in der ersten Nacht eingegangen. Ich werde auch auf jede antworten, bin aber noch nicht zum Lesen gekommen wegen des ganzen Feedbacks, dass ich hier vor Ort noch kriege. Und: Im Unterschied zum letzten mal ist mir auch dieses mal nicht die Seite mitten im Vortrag weggebrochen (ich habe im März die Infrastruktur ziemlich aufgerüstet). 8-) Sehr schön. Zum Material:

Und hier nun der Mitschnitt im deutschen Originalton direkt eingebettet. Interessanterweise ist der Vortrag gleich wieder mehrfachst auf YouTube, und es gibt Versionen, die deutlich mehr Klicks haben als die Originalversion vom CCC 8-O – ich nehme also hier mal aus Prinzip die vom CCC.

Comments

Aufgrund von Caching kann es bis zu zwei Minuten dauern, bis ein Kommentar erscheint!

Da ich gerade ziemlich viel manuellen Spam aus Russland und Pakistan bekomme und keine Zeit habe, da wirksam gegen anzugehen, ist die Kommentarfunktion bis auf weiteres abgeschaltet. Wenn's pressiert, mailt mir!

Auf diesen Vortrag habe ich mich vollkommen zurecht gefreut. Der volle Saal spricht dafür, dass es nicht nur mir so ging. Es ist auch nochmal etwas besonderes bei dieser Darstellungsform, das man über Blog-Einträge allein nicht vermitteln kann. Natürlich macht es Spaß, die Artikel hier zu lesen, aber deine Art, vorzutragen, übertrifft das nochmal deutlich. Es gibt auch genug Gegenbeispiele, sogar bei TED: Vorträge, bei denen ich nach ein paar Minuten trotz interessantem Titelthema keine Lust mehr auf das Geschwafel habe. Es ist eine seltene Gabe, interessante Themen mit diesem Witz, dieser zwischendurch immer wieder eingeworfenen Nachdenklichkeit und ansteckender Begeisterung vorzutragen. Natürlich braucht man dafür auch ein gutes Thema, und der Xerox-Bug ist in der Hinsicht wohl nie wieder zu übertreffen, aber mit SpiegelMining ist dir ein würdiger Nachfolger eingefallen. Danke für eine Stunde bester und lehrreicher Unterhaltung.

1 |
Tobias Frei
| 2017/01/02 14:21 | reply

Mich würde interessieren, welche Wörter im Artikel die Debatte in den Kommentaren besonders anheizen (also die Wörter, die besonders in den Artikeln vorkommen, die erst nachträglich zur Kommentierung gesperrt wurden).

2 |
tobi
| 2017/01/02 20:33 | reply

@Tobias Frei: Danke für das coole Feedback! :-)

@tobi: Ich erfasse die Kommentare leider nicht :-/

3 | | 2017/01/02 20:51 | reply

Hallo David,

der Vortrag war sehr genial und hat in so mancher Hinsicht die Augen geöffnet, was man mit den Daten so alles machen kann, vielen Dank.

Hier ein paar Vorschläge zu möglichen Auswertungen: - Analyse, welche Adjektive werden in den Artikeln besonders häufig im Zusammenhang mit Politikern genannt? Gibt es einen Zusammenhang zwischen den Adjektiven und für Kommentierung gesperrten Artikeln? Gleiches gilt für den Zusammenhang von Adjektiven und Themen. - In welchem Kontext werden Wertungen bzw. Emotionen statt Fakten genutzt (z.B. irre, Abzocke, abwiegeln, Problem, krass, Hölle)?

Beste Grüße

Andreas

4 |
Andreas
| 2017/01/05 13:53 | reply

Super Vortrag und ein wirklich spannendes Projekt! Vielleicht solltest du dich mal mit Dr. Uwe Krüger kurzschließen. Der hat ja Erfahrung mit der Auswertung von Medien … siehe hier: https://www.youtube.com/watch?v=7T6HZSgiWKE

5 |
Walter
| 2017/01/06 21:26 | reply

Betreibe seit Jahren die Seite weltflimmern.de, welche ein Archiv deutscher Nachrichtenseiten seit Oktober 2010 besitzt. Habe da auch mit statistischen Auswertungen herum experimentiert. Evt. kann man sich dazu kurzschliessen.

6 | | 2017/01/15 22:37 | reply

Wirklich ein gelungener Vortrag. Sehr unterhaltsam und voller wichtiger Aussagen. Vielen Dank dafür! Ich habe mir erlaubt dazu eine kleine Review zu veröffentlichen. http://watchblog.digital/david-kriesel-spiegelmining-und-die-gefahren-der-vorratsdatenspeicherung

Bitte mach weiter so David! Ich bin gespannt was aus deiner Richtung als Nächstes kommt. ;-)

7 | | 2017/01/20 00:50 | reply

Leider erst heute dazu gekommen, den Vortrag zu sehen. Aber hat sich gelohnt. Ich freue mich auf weitere Vorträge von dir!

Eine Anregung: Willst du nicht lieber das Video von media.ccc.de verlinken und einbetten, statt Youtube? Youtube, Google, Datamining und so. ;-)

Viele Grüße

David
8 |
David
| 2017/01/29 10:33 | reply

Hallo David,

ich bin kein ITler und daher fachfremd ;) - Frage: Woher bekomme ich ein Skript, welches automatisch Artikel mitsamt Metadaten automatisiert herunterlädt?

9 |
Sebastian
| 2017/01/30 13:20 | reply

Hallo aus Bonn,

super Vortrag! Er führt einem vor Augen was sich mit Daten so alles machen lässt und wieso die abstrakten Begriffe Data Mining und Big Data für jeden relevant sind. Ich frage mich ob du bereit wärst den Vortrag nochmal in Bonn zu halten? Würde mich freuen mit dir in Kontakt zu kommen.

Schöne Grüße, Nik

10 | | 2017/02/03 14:32 | reply

@Sebastian: Diese Skripts schreibt man sich selbst, weil man diese nicht verallgemeinern kann. Es ist generell auch nicht schwer so ein Skript zu bauen, wenn man sich überlegt, was es alles können muss. Man braucht ein Programm, welches sich nicht schließt und in einem bestimmten Zeitintervall die Artikelliste aufruft. Dann wird geschaut, ob ein Artikel bereits gespeichert wurde und wenn nicht, wird dieser heruntergeladen. Das Prozedere ist für alle Seiten das gleiche. Die Programme unterscheiden in der Umsetzung.

11 |
Adrian
| 2017/03/04 21:05 | reply

Und einmal zu einem eigenen Projekt, welches durch dich inspiriert ist David! Ich werde dir zu dem ganzen Projekt nochmal eine Mail schreiben.

Zusammen mit einem Freund habe ich, durch deinen Vortrag inspiriert, einen Miner geschrieben, welcher von [VON DAVID ZENSIERT 8-)] alle Artikel abgreift und zusammen mit Metadaten speichert. (Sowohl Artikel auf dem Server, als auch Metadaten in der Datenbank) Hierfür eignet sich der Feed sehr gut. Da ich aber repräsentative Daten recht schnell benötigt habe, bin ich auf die Idee gekommen einen modularen Miner zu schreiben, welcher vollautomatisch das Archiv abklappert und die Artikel von dort aus herunterlädt. Mit den obligatorischen Timeouts zwischen den Zugriffen (Ich bin ja kein Bot ^^) habe ich ca. 7 Stunden benötigt um die Daten von 3 kompletten Jahren zu speichern. Danach habe ich mein bereits vorhandenes Analyseskript gestartet, welches in weiteren 3 Stunden alle Artikel analysiert hat (Sind 21304, Stand: Mitte Februar) Daraus lassen sich auch schöne Grafiken generieren. Sobald meine Arbeit mit den Daten beendet ist (wird am 15.03.) der Fall sein, werde ich meinen Bot noch etwas umschreiben und eine ordnerbasierte Speicherung jeglicher Artikel vornehmen. (Vom 1.1.1998 bis heute) Die daraus resultierenden Erkenntnisse zeigen die Langzeitentwicklung von [EBENSO] und sind garantiert interessant. Vorstellbar wären „Anzahl Artikel pro Jahr und Autor“, „Artikellänge im Verlauf der Zeit“, „Anzahl der Wörter pro Autor generell“, „Absolute Anzahl aller ausgeschriebenen Artikeländerungen“ oder „Anteilige Anzahl aller ausgeschriebenen Artikeländerungen“. Diese Liste kann man ewig so weiter führen. Man wird aber garantiert in dieser Hinsicht noch von mir hören. - Du David sowieso, wenn ich dir meine Mail schicke -

12 |
Adrian
| 2017/03/04 21:23 | reply

Hallo David,

Deine downloadbare Datei „spiegelmining-33c3-davidkriesel.pdf“ ist auch ein schönes Beispiel für die Gefahren mit unkontrollierten PDF-Metadaten. So lautet der nicht mehr so ganz aktuelle PDF-Document-Title „Glaube keinem Scan, den du nicht selbst gefälscht hast“.

Richtig informativ und interessant sind solche PDF-Metadaten z.B. in Bewerbungsunterlagen und Firmenschreiben, wenn Servernamen, UserIDs, fremde Personennamen oder fremde Projektdetails enthalten sind. Mein erster Klick ist bei PDFs daher Ctrl-D = Document Properties. Diese PDF-Meta-Informationen lassen sich auch durch nachträgliches Editieren und Überschreiben in der PDF nicht mehr entfernen! Dazu benötigt man Spezial-PDF-Cleantools. Let's praise the PDF file format!

Beste Grüße, Rudy

13 | | 2017/04/23 14:54 | reply

Hallo David, erst mal vielen Dank für den spannenden Vortrag. Ich werde mich in meiner bevorstehenden Bachelorarbeit mit der Visualisierung von Daten beschäftigen, daher würde ich mich sehr interessieren, wie du die anschaulichen Grafiken erstellt hast. Schreibst du alle Skripte dafür selber? Ich würde mich sehr über ein paar Tipps deinerseits zu diesem Thema freuen. Viele Grüße Lisa

14 |
Lisa Wassmer
| 2017/08/25 03:57 | reply

Hallo, ich hab deinen Vortrag zum Spiegel-Mining eben auf Youtube gesehen und fand ihn sehr cool. Was ich interessant fände wäre die Entwicklung der Wortwolken pro Ressort, insbesondere was manipulative Begriffe angeht. Die man natürlich dann als Mensch da rauslesen müsste. Es sei denn, dir fällt eine Möglichkeit ein, so etwas heuristisch zu ermitteln (Abgleich mit einem Wörterbuch?).

15 |
Birgit Nietsch
| 2017/11/18 02:46 | reply

Sehr schöner Vortrag, aber leider habe ich jedes Wort verstehen können, vor allem in der Frage-Runde! Mein Gedanke zum Data-Science ob Börsen-Nachrichten nach Ländern oder Interressen Relevanz haben? Danke! A.C.

16 |
Marie Huana
| 2018/03/09 21:11 | reply

Erschreckend was man auch noch jahre später im video zu aktuellen Ereignissen (siehe Cambridge Analytica, Trump, etc.) für Paralellen ziehen kann. Was mich jetzt zum einen interessieren würde wäre eine Art workflow oder praktische Ansätze wie man solche Datensätze für $Datenquelle_X selbst zusammenbastelt bzw. welche Grundtools und eben Suchansätze (meinetwegen als eine Art HowTo) zu verwenden wären. Gibts dazu etwas auf das man aufbauen kann? Gerade um das z.B. mal auf Facebook, youtube, stern, heise, etc. (Wilde Zusammenstellung ich weiss…) los zu lassen. Irgendwelche Ideen oder Links dazu?!

17 |
wonderer
| 2018/07/06 12:56 | reply

Hi, ich hoffe die Daten sind nach fast 2J noch vorhanden. Mich würde interessieren ob und wie oft Texte im Nachhinein verschlimmert oder verharmlost wurden. Sowie in welchen Rubriken dies wie oft gemacht wurde. Die einfachste Untersuchung dabei wäre z.B. zu überprüfen, wie oft einzelne Worte wie „sehr“, „wenige“, „hunderte“, „extrem“ usw. hinzugefügt oder entfernt wurden. Es gibt natürlich noch viele andere interessantere Adjektive und noch interessanter wären spezielle Wort-Kombinationen. Man müsste sich also zunächst eine entsprechende Liste erstellen. Naja, könnte im Arbeitsaufwand weit mehr werden als ich anfangs dachte… Jedenfalls super Vortrag, vielen Dank. ;)

18 |
Aluhut
| 2018/09/04 21:13 | reply

Hey David,

großartiger Vortrag, gibt es die Kommentar Analyse auf zum selber Entdecken? Also wie die Landkarte der Keywords? Du hast Folien dazu gezeigt, aber wäre auch spannend zu sehen, wo noch überall gerne und viel gesperrt wird :)

Gruß und weiter so

Marcus

19 |
Marcus Morig
| 2018/11/20 14:31 | reply