News

:!: Aus aktuellem Anlass – Eine Auflistung der SpiegelMining-Artikel gibt es unter der folgenden URL: http://www.dkriesel.com/spiegelmining :!:

Der Fahrplan zum 33C3 ist da!

… und mein Vortrag „SpiegelMining – Reverse Engineering von Spiegel-Online“ findet am 28. Dezember 2016 um 21:45 Uhr in Saal 2 statt. Das ist Tag 2 des Fahrplans. Wer es nicht mehr nach Hamburg schafft oder in Hamburg nicht mehr in den Raum schafft: Details zum Stream werden hier und zur not auch im Fahrplan selbst noch rechtzeitig bekannt gegeben. 8-)

Hier ist die originale Beschreibung im 33C3-Fahrplan. Für alle, die nicht wissen, was der Fahrplan ist: Der ist das Vortragsprogramm für den 33C3. Der Fahrplan wird alle Nase lang aktualisiert, also kreidet es dem CCC nicht an, wenn im Fahrplan noch ein paar Fehler oder fehlende Bilder drin sind. Hier ist der Startpunkt vom 33C3-Fahrplan selbst, da kann man dann alle Tage, Speaker, Räume und so weiter sehen.

Was SpiegelMining angeht: Ihr versteht sicher, dass ich mich bis dahin mit neuen SpiegelMining-Blogartikeln hier zurückhalte. 8-)

33C3-Vortrag: "SpiegelMining - Reverse Engineering von SpiegelOnline"

Seit heute ist offiziell, was es auf dem diesjährigen Chaos Communication Congress (33C3) für Vorträge geben wird – und damit auch, dass ich dort wieder sprechen werde. Ich freue mich wieder total! Es wird um mein aktuelles Hobbyprojekt SpiegelMining gehen. Und das bedeutet auch, dass ich mir jetzt mal Gedanken um meine weitere Veröffentlichungsstrategie hier vor dem Vortrag machen muss.

Wie mein letzter CCC-Vortrag vor zwei Jahren wird auch der hier wieder mehrere rote Fäden haben, reich illustriert und für jedermann verständlich sein. Es geht nicht nur darum, SpiegelOnline reverse zu engineeren, sondern auch darum, eine anschauliche Intuition zu vermitteln, was mit der heutigen Daten-Auswerterei alles geht, und warum das bei allem Nutzen auch gesellschaftlich gefährlich ist.

Ihr könnt nämlich überhaupt nicht wissen was ihr über euch preisgebt, wenn ihr irgendwelche Daten veröffentlicht. Egal, wie uninteressant eure Daten für euch aussehen mögen – was man daraus lesen kann, entscheidet nicht ihr, sondern euer Gegner.

Genauere Koordinaten des Vortrages veröffentliche ich, sobald ich sie selber erhalte (der CCC arbeitet selbst noch am Fahrplan – Update: Hier gibt es jetzt die genauen Infos). Aber bis dahin könnt ihr der CCC-Orga beim erstellen des Fahrplans helfen, indem ihr im "halfnarp" zum 33C3 diejenigen Vorträge anklickt, die ihr interessant findet, und das Ergebnis submitted. Die Orga versucht anhand der Daten, den Fahrplan so zu erstellen, dass möglichst viele Kollisionen vermieden werden. (Für diejenigen, die sich fragen, was der 33C3-Fahrplan ist: Der ist das Programm des 33C3.)

PS.: Ich hatte in letzter Zeit ein paar nachfragende Mails bekommen, ob es vielleicht einen solchen Vortrag geben wird. Ich entschuldige mich bei allen, bei denen ich „vergessen“ habe, darauf zu antworten. Sorry :-) Ich wollte da nicht unnötig irgendeine Gerüchteküche befeuern, ohne zu wissen, ob es was wird, das ist sicher auch verständlich …

SpiegelMining: Think big. Die Artikellandschaft der letzten zwei Jahre zum selberforschen

Heute werden wir Ordnung in das irrwitzige Themen-Chaos bringen, das mit mittlerweile ca. 80.000 Artikeln ganz natürlich entsteht. Und wir generieren eine riesige (!) Themenlandschaft, in der ihr selbst herumforschen könnt.

Dieser Artikel schließt direkt an den vorherigen Artikel an. Im vorherigen Artikel haben wir angefangen zu erforschen, wie SpiegelOnline seine Artikel thematisch einordnet. Wir haben dann festgestellt: Es gibt gleich mehrere verschiedene Artikelmerkmale, die SpiegelOnline zum ordnen verwendet. Rubriken waren das gröbste, Unterrubriken knapp dahinter. Eine nochmals feinere Einordnung waren die Themen. Themen waren keine Unter-Unterrubriken, sondern die wurden separat vergeben.

Es ging abermals feiner: Mit den keywords. Spiegel verteilt eine Liste von Schlagworten pro Artikel, die von den Redakteuren anscheinend frei vergeben werden konnten. Die Keywords schienen auf den ersten Blick sehr ergiebig und erfolgsversprechend. Sie hatten aber auch die typischen Probleme von „Datensätzen aus der freien Natur“ – Redundanzen, Ungenauigkeiten und Fehler.

In diesem Artikel werden wir auf diese Probleme eingehen und sie überwinden. Wir werden Ordnung in eine riesige Masse Keywords bringen und dazu noch eine sehr mächtige Art der visuellen Darstellung finden, die wir in späteren Artikeln dann nutzen werden – Es gibt ja bekanntlich nur eine Breitbandverbindung ins Gehirn: Die Augen.

Erstishow 2016 und Logik-"Script"

Liebe Informatik-Erstis der Universität Bonn 2016, ich hoffe, es hat euch heute genausoviel Spaß gemacht, wie mir. 8-) Normal wäre dieser Blogeintrag hier schon beendet, aber weil ihr danach gefragt habt, gibt es hier noch „mein Logikscript“.

In Wirklichkeit ist es gar kein Script, sondern wird nur von den Studis so genannt. Es ist eine knackige, umgangssprachliche Erklärung genau der mathematischen Grundlagen, die Erstis oft nicht verstehen, sich aber nicht trauen zu fragen. Die Zusammenfassung stammt aus dem WS 2011/2012, als ich selbst an der Lehre in der Logik beteiligt war. Der Stoff, der heute behandelt wird, kann leicht abweichen, ich übernehme keine Verantwortung dafür.

Kontext: Ich hatte damals ein paar „Kompakt-Kurse“ in meinen Tutorien angeboten, weil es dafür definitiv Bedarf gab; daraus ist das Material. Danach werden noch gute Teile der „Logik und Diskrete Strukturen“ ebenso knackig zusammengefasst. Habt Spaß damit :-)

Hinweise: Beachtet, dass die enthaltenen Klausurtipps sich auf die damalige Klausur beziehen und nicht unbedingt auf eure. Lasst euch von den teilweise noch vorhandenen Neu!-Markern am Rand des Textes nicht stören – Ich hatte die Zusammenfassung damals live zur Vorlesung erweitert, aber den Stoff aus didaktischen Gründen in eine andere Ordnung gebracht als die Vorlesung. Darum stand das, was jeweils neu war, nicht immer hinten, sondern manchmal mittendrin im Text, also hatte ich das für meine Tutorinos markiert. Ich habe die Markierungen einfach dringelassen, sie stören ja nicht weiter.