News

:!: Aus aktuellem Anlass – Eine Auflistung der SpiegelMining-Artikel gibt es unter der folgenden URL: http://www.dkriesel.com/spiegelmining :!:

Video und Folien meines 33C3-Vortrags "SpiegelMining"

Dieser Post enthält das Material zu meinem Vortrag „SpiegelMining – Reverse Engineering von SpiegelOnline“ vom 33. Communication Congress. Aber erstmal vorweg: DANKE für die wieder unglaublich krasse Menge an Feedback! Ist wieder der Hammer. Es tut mir übrigens leid, dass so viele nicht mehr in den Raum gekommen sind – aber der Saal war leider bereits 20 Minuten vor Beginn komplett voll, und der CCC steht hier leider auch nicht über dem Brandschutz. Sorry. :-( Ich habe gehört, dass die Leute draußen dann spontan ein Public Viewing auf größeren Bildschirmen auf die Beine gestellt haben. Coole Aktion, das ist das, was den Congress ausmacht! Ich hoffe, es war dann trotzdem okay und keiner wurde enttäuscht.

Es sind drölfzig Mails mit diversen Auswertungsvorschlägen alleine in der ersten Nacht eingegangen. Ich werde auch auf jede antworten, bin aber noch nicht zum Lesen gekommen wegen des ganzen Feedbacks, dass ich hier vor Ort noch kriege. Und: Im Unterschied zum letzten mal ist mir auch dieses mal nicht die Seite mitten im Vortrag weggebrochen (ich habe im März die Infrastruktur ziemlich aufgerüstet). 8-) Sehr schön. Zum Material:

Und hier nun der Mitschnitt im deutschen Originalton direkt eingebettet. Interessanterweise ist der Vortrag gleich wieder mehrfachst auf YouTube, und es gibt Versionen, die deutlich mehr Klicks haben als die Originalversion vom CCC 8-O – ich nehme also hier mal aus Prinzip die vom CCC.

Eine Datenanalyse von 1.3 Millionen Hackernews-Posts (und wie man populäre Posts schreibt)

Ich widme mich schon seit längerer Zeit wieder der Data Science und dem Machine Learning. Weil aber im Moment beruflich und mit den Vorträgen viel los ist, ist irgendwie noch kein Blogartikel dabei rumgekommen. Also gibt es jetzt einen.

Vor einiger Zeit hat Randal Olson analysiert, wie man populäre Reddit-Posts schreibt. Der Witz ist, dass er das datengetrieben getan hat. Er hat sich einen riesigen Datensatz Reddit-Posts geladen und versucht, direkt aus diesem Datensatz abzuleiten, was begünstigen kann, dass ein Artikel populär wird. Ich habe mir gedacht, es wäre doch mal interessant, dasselbe für Hacker News zu machen. Hacker News ist wie Reddit eine internetweit sehr populäre social-news-Seite, aber es ist mehr in der Technikszene verhaftet als Reddit und hat auch den Ruf, etwas seriöser zu sein (alles aber nur Hörensagen). Mir ist Hacker News zum ersten Mal aufgefallen, als mein Xerox-Artikel dort auf Seite 1 landete, was bei mir ein bisschen Serverlast verursacht hat. Hacker News ist nicht ganz unwichtig im techniklastigen Web. Wenn man es dort auf Seite 1 schafft, kann man ruckzuck die kritische Masse an Aufmerksamkeit zusammen haben, die man braucht, um irgendetwas viral um den Planeten zu jagen.

Wenn man etwas datengetrieben analysieren will, ist das wichtigste was man braucht, … Daten (no shit, Sherlock!). Da trifft es sich doch gut, dass Shital Shah alle Hacker News Posts seit 2006 heruntergeladen und in einem riesigen JSON-File zum Download gestellt hat. Danke, Shital! :-) In seinen JSON-File findet man sage und schreibe 1333789 Posts.

Der Rest dieses Artikels ist gegliedert wie folgt. Als erstes, sozusagen für die eiligen Leser, werden wir in aller Kürze analysieren, was und wann man posten muss um die Chance auf einen populären Post zu maximieren. Diese Analyse ziehen wir nur aus dem vergleichsweise jungen Teil des Datensatzes, nämlich den Posts ab 2013. Danach werden wir versuchen, das analysierte etwas zu erklären, indem wir das generelle Benutzerverhalten der Hacker News-Benutzer grob betrachten. Und zum Schluss gehen wir etwas weiter und manchen ein bisschen Trendanalyse auf dem Gesamtdatensatz. So kann man sehen, wie sich das Benutzerverhalten über die Zeit ändert, und auch, was wann populär ist und war.

Disclaimer: Wie Randal in seiner Redditanalyse mache ich hier nur Aussagen über Wahrscheinlichkeiten! Wenn ihr meine Guidelines befolgt ist das in keinster Weise eine 100%-Garantie, auf Hacker News populär zu werden. Sagt also nicht, ich hätte euch nicht gewarnt.

Video meines Xerox-Vortrags auf dem 31C3

Hier ist der Youtube-Videomitschnitt meines Vortrags „Glaube keinem Scan, den du nicht selbst gefälscht hast“ auf dem 31. Chaos Communication Congress (31C3). Die Deutsche Version ist unten eingebettet. Achtung: Im ersten Video des CCC fehlte diese Passage, die quasi den Spannungshöhepunkt darstellte. In den neuen, hier verlinkten Videos ist die Passage drin.

Auf den Videos sieht man auch, wie unheimlich gut die Stimmung war! Ich musste selbst ungehörigerweise immer wieder lachen. Das lag auch daran, dass jemand in der ersten Reihe die ganze Zeit unglaublich ansteckend gelacht hat, da fällt es dann auch schwer, ernst zu bleiben, zumal mir der Vortrag auch Spaß gemacht hat. Seid mir also gnädig. 8-) Es folgt noch etwas mehr Material:

Hier gibt es auch noch mehrere Links auf die Artikel zur Obamasache von den Leuten von Reality Check, die ich im Vortrag erwähnt hatte. Die haben das aber technisch viel netter auseinandergenommen als ich im Vortrag konnte (bei mir war es ja auch nicht Primärthema). Viel Spass :-)

Xerox-Scankopierer verändern geschriebene Zahlen

Vorabanmerkungen:

  • Eine (lange nicht erschöpfende) Presseschau habe ich anlässlich meiner Gastvorlesung zum Thema hier zusammengestellt. Ich bin selbst überrascht, wie viele Artikel es gibt.
  • Eine Zeitleiste der ganzen Angelegenheit gibt es weiter unten. Darin kann man sich einen Überblick verschaffen, und findet auch die relevanten Blogartikel verlinkt. Daraus geht auch klar hervor, dass ich Xerox sehr viel Zeit gelassen habe, also nicht einfach mit der Sache an die Öffentlichkeit gegangen bin. Das ist mir wichtig, weil ich erstmal versuche, im nicht-öffentlich auf Leute zuzugehen, wenn ich etwas zu beanstanden habe.

Video und Folien zu meinem Vortrag "Traue keinem Scan, den du nicht selbst gefälscht hast" (31C3)

Hier gibt es auch noch die Vortragsfolien.

Hier könnt ihr mir Feedback über den Vortrag geben! Das ist mir wichtig, danke! :-) (Achtung: 5 ist das beste, 1 ist das schlechteste, das sind keine Schulnoten.)

Einleitung

In diesem Artikel dokumentiere ich ausführlich, wie weit verbreitete Firmen-Scankopierer der Firma Xerox bei gescannten Seiten Ziffern, Zahlenreihen oder andere Bildfragmente unvorhersehbar vertauschen/ersetzen – und zwar nicht aufgrund irgendwelcher Texterkennung, sondern richtig hart in den Pixeldaten. Das Ergebnis sind Dokumente, die subtil falsch sind, aber perfekt aussehen – so, dass man es auf den ersten Blick nicht bemerkt. So etwas kann extrem gefährlich sein oder sogar Menschenleben kosten. Der Phantasie sind keine Grenzen gesetzt:

  1. Abrechnungen, die plötzlich nicht mehr stimmen.
  2. Baupläne mit vertauschten Quadratmeterzahlen.
  3. Falsche Ingenieurspläne, die wiederum Menschenleben gefährden würden (stellt euch vor, eine Autobahnbrücke hat in der Statik einen Zahlendreher verbaut).
  4. Arzneimitteldosierungen mit Zahlendrehern, eigentlich noch schlimmer.

Ihr seht schon: Was sich zunächst locker anhört, ist absolut kritisch und kann schnell lebensgefährlich werden. Es handelt sich um einen acht (!) Jahre alten Bug, der nach Händlerinformationen hunderttausende Xerox-Multifunktionskopierer weltweit betrifft. Mehrere große Gerätefamilien sind betroffen (eine Liste gibt es weiter unten). Jeder, der diese in den letzten acht Jahren eingesetzt hat oder jetzt noch einsetzt, muss sich fragen:

  • Wieviele fehlerhafte Unterlagen, die auf den ersten Blick richtig aussehen, habe ich in den letzten Jahren gespeichert oder gar an dritte herausgegeben?
  • Sind durch diese denkbaren Fehler Menschen oder Vermögenswerte gefährdet?
  • Kann ich für diese Fehler verantwortlich gemacht werden?

Bis zur Behandlung des Fehlers in meinem Blog war er nicht entdeckt oder veröffentlicht. Seine Tragweite entfaltete sich auch erst in Laufe meiner verschiedenen Blogartikel, die von den Massenmedien aufgegriffen und verbreitet wurden. In welcher Reihenfolge was geschah, lässt sich anhand der nachfolgenden Zeitleiste sehen. Es waren zwei interessante Wochen, das kann ich euch versprechen. :-)

Der Rest des Artikels ist wie folgt gegliedert.

  • Es wird an einer Zeitleiste beschrieben, wie die Angelegenheit sich entfaltet hat
  • Es wird an konkreten Beispielen beschrieben, wie der Fehler entdeckt wurde, und wie subtil er auftritt. Weil schwer zu glauben ist, dass ein Scankopierer Zahlen verdreht, liefere ich natürlich Beweismaterial mit.
  • Danach kommt eine Liste der betroffenen Kopierer.
  • Es folgt eine grobe Anleitung, wie sich der Fehler reproduzieren lässt.
  • Zuletzt gibt es eine kurze, laienhafte rechtliche Würdigung der rechtlichen Folgen. Kurzform: Die letzten 8 Jahre an PDF-Scans von betroffenen Geräten kann nicht nur Fehler enthalten, sie sind anscheinend auch rechtlich komplett wertlos, und zwar unabhängig davon, ob Fehler tatsächlich nachgewiesen werden.