News

Erstishow 2016 und Logik-"Script"

Liebe Informatik-Erstis der Universität Bonn 2016, ich hoffe, es hat euch heute genausoviel Spaß gemacht, wie mir. 8-) Normal wäre dieser Blogeintrag hier schon beendet, aber weil ihr danach gefragt habt, gibt es hier noch „mein Logikscript“.

In Wirklichkeit ist es gar kein Script, sondern wird nur von den Studis so genannt. Es ist eine knackige, umgangssprachliche Erklärung genau der mathematischen Grundlagen, die Erstis oft nicht verstehen, sich aber nicht trauen zu fragen. Die Zusammenfassung stammt aus dem WS 2011/2012, als ich selbst an der Lehre in der Logik beteiligt war. Der Stoff, der heute behandelt wird, kann leicht abweichen, ich übernehme keine Verantwortung dafür.

Kontext: Ich hatte damals ein paar „Kompakt-Kurse“ in meinen Tutorien angeboten, weil es dafür definitiv Bedarf gab; daraus ist das Material. Danach werden noch gute Teile der „Logik und Diskrete Strukturen“ ebenso knackig zusammengefasst. Habt Spaß damit :-)

Hinweise: Beachtet, dass die enthaltenen Klausurtipps sich auf die damalige Klausur beziehen und nicht unbedingt auf eure. Lasst euch von den teilweise noch vorhandenen Neu!-Markern am Rand des Textes nicht stören – Ich hatte die Zusammenfassung damals live zur Vorlesung erweitert, aber den Stoff aus didaktischen Gründen in eine andere Ordnung gebracht als die Vorlesung. Darum stand das, was jeweils neu war, nicht immer hinten, sondern manchmal mittendrin im Text, also hatte ich das für meine Tutorinos markiert. Ich habe die Markierungen einfach dringelassen, sie stören ja nicht weiter.

SpiegelMining: Rubriken, Unterrubriken, Themen, Keywords. Wie SpiegelOnline seine Artikel verdrahtet

Willkommen zu unserer vierten Runde SpiegelMining! Heute fangen wir an, uns der tatsächlichen, inhaltlichen Thematik der Artikel zu nähern. Wir werden gleich mehrere neue Merkmale aus den Artikeln erfassen. Damit werden wir erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir werden sehen, dass SpiegelOnline mehrere Arten der thematischen Sortierung hat.

In den letzten Artikeln hatten wir ja schon einiges an Aufbauarbeit geleistet und verschiedene Artikel-Merkmale betrachtet. Im ersten Artikel gab es eine Betrachtung von Rubriken, Veröffentlichungszeitpunkten und Textlängen. Im zweiten Artikel haben wir die beteiligten Autoren und Nachrichtenagenturen hinzugenommen und gelernt, wie man Beziehungen unter den Autoren visualisieren kann. Wir hatten uns beim Parsen darüber geärgert, dass die in den Artikeln nicht immer an der gleichen Stelle standen. Im dritten Artikel haben wir dann gemerkt, dass die verschiedenen Plätze, an denen die Autoren in den Artikeln stehen können, ein Ausdruck vom Zweiklassensystem der Artikel bei SpiegelOnline sind.

Die thematische Betrachtung, die wir heute anfangen, wird stark über die reine Betrachtung neuer Merkmale hinausgehen. Ich versuche ja neben den Spiegelforschungen immer, euch ein wenig mit auf die Reise der Data Science und der Visualisierung zu nehmen. Darum werden wir heute versuchen, auf den neuen thematischen Merkmalen Auswertungen zu fahren und daraus Visualisierungen zu erstellen. Dabei werden wir auf Schwierigkeiten stoßen, die sich ganz naturgemäß bei solcher Art Daten ergeben.

Nachdem wir dann ein Gefühl für die Sortierungsmerkmale und die Schwierigkeiten bekommen haben, werden wir die Schwierigkeiten im nächsten Artikel umschiffen. Dieser Artikel bildet also mit dem nächsten eine Einheit. Alles zusammen wäre für einen einzigen Artikel etwas viel gewesen. Auch Nichtinformatiker sollen das noch verdauen können.

In diesem und dem nächsten Artikel zusammen werden wir auch lernen, worauf man achten muss, wenn man über eine riesige und extrem komplexe Datenmenge einen Graphen der Themen rendern will – ähnlich zu dem Graphen, der damals das soziale Netz der Spiegel-Autoren dargestellt hat. Nur viel, viel, viel größer.

Xerox-Vortrag im WDR ZeitZeichen

Ich freue mich, dass mein Xerox-Vortrag zum 31. Chaos Communication Congress es in einen ZeitZeichen-Beitrag des WDR geschafft hat, und zwar gleich mehrmals! :-)

ZeitZeichen, so Wikipedia, „ist eine tägliche Sendung im Radio des Westdeutschen Rundfunks (WDR), die historische Ereignisse und bedeutende Personen der Geschichte in Form eines rund 15-minütigen Features vorstellt.“

Das ZeitZeichen, um das es hier geht, widmet sich dem Chaos Computer Club, der heute vor 35 Jahren gegründet wurde. Es bringt nicht nur ein paar Anekdötchen aus der Anfangszeit des CCC, sondern nähert sich auch einigen der Thematiken, die vom CCC angefasst werden, wie etwa der Vorratsdatenspeicherung oder den Enthüllungen um Edward Snowden. Unbedingt hörenswert, vielleicht hat ja einer von euch sogar Lust, sich zu engagieren.

Hier kann man den Beitrag anhören. Mein Vortrag dient als Klammer direkt am Anfang und kurz vor dem Ende. Danke an diejenigen, die mir bescheidgesagt haben!

SpiegelMining: Kassen- und Privat-Artikel. Das Zweiklassensystem von SpiegelOnline

Im letzten Artikel hatten wir uns gewundert, dass bei manchen Spiegelartikeln die Autorennamen ausgeschrieben unter dem Titel zu finden sind und andere Artikel nur eine Kürzelliste unten am Ende haben. Diesem Phänomen rücken wir heute zu Leibe, denn es gibt dahinter einen – für mich überraschenden – Sinn. Eigentlich wollte ich heute über was anderes schreiben, aber das gibt es dann nächstes mal.

Was bisher geschah: Das hier ist der dritte Artikel meiner Serie „SpiegelMining“. Im ersten Artikel haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir hatten Zusammenhänge zwischen Erscheinungszeitpunkt Rubrik Textlänge gefunden. Im zweiten Artikel haben wir die Autoreninformationen zu jedem Artikel hinzugezogen, das soziale Netzwerk zwischen den Autoren errechnet und analysiert.

Ich hatte mich beim Parsen der Autoren-Informationen rechtschaffen darüber geärgert, dass die Autoren zu den Artikeln manchmal ausgeschrieben direkt unter dem Titel stehen, und sehr oft einfach in einer kursiv geschriebenen Zeile unter dem Haupttext. Stehen die Autoren unten, sind sie auch meist nicht ausgeschrieben, sondern in Kürzeln verschleiert. Das hat mir wirklich Arbeit gemacht. Damit wir wieder reinkommen, wiederhole ich die zwei Beispiele aus dem letzten Artikel: