News

Eine Datenanalyse von 1.3 Millionen Hackernews-Posts (und wie man populäre Posts schreibt)

Ich widme mich schon seit längerer Zeit wieder der Data Science und dem Machine Learning. Weil aber im Moment beruflich und mit den Vorträgen viel los ist, ist irgendwie noch kein Blogartikel dabei rumgekommen. Also gibt es jetzt einen.

Vor einiger Zeit hat Randal Olson analysiert, wie man populäre Reddit-Posts schreibt. Der Witz ist, dass er das datengetrieben getan hat. Er hat sich einen riesigen Datensatz Reddit-Posts geladen und versucht, direkt aus diesem Datensatz abzuleiten, was begünstigen kann, dass ein Artikel populär wird. Ich habe mir gedacht, es wäre doch mal interessant, dasselbe für Hacker News zu machen. Hacker News ist wie Reddit eine internetweit sehr populäre social-news-Seite, aber es ist mehr in der Technikszene verhaftet als Reddit und hat auch den Ruf, etwas seriöser zu sein (alles aber nur Hörensagen). Mir ist Hacker News zum ersten Mal aufgefallen, als mein Xerox-Artikel dort auf Seite 1 landete, was bei mir ein bisschen Serverlast verursacht hat. Hacker News ist nicht ganz unwichtig im techniklastigen Web. Wenn man es dort auf Seite 1 schafft, kann man ruckzuck die kritische Masse an Aufmerksamkeit zusammen haben, die man braucht, um irgendetwas viral um den Planeten zu jagen.

Wenn man etwas datengetrieben analysieren will, ist das wichtigste was man braucht, … Daten (no shit, Sherlock!). Da trifft es sich doch gut, dass Shital Shah alle Hacker News Posts seit 2006 heruntergeladen und in einem riesigen JSON-File zum Download gestellt hat. Danke, Shital! :-) In seinen JSON-File findet man sage und schreibe 1333789 Posts.

Der Rest dieses Artikels ist gegliedert wie folgt. Als erstes, sozusagen für die eiligen Leser, werden wir in aller Kürze analysieren, was und wann man posten muss um die Chance auf einen populären Post zu maximieren. Diese Analyse ziehen wir nur aus dem vergleichsweise jungen Teil des Datensatzes, nämlich den Posts ab 2013. Danach werden wir versuchen, das analysierte etwas zu erklären, indem wir das generelle Benutzerverhalten der Hacker News-Benutzer grob betrachten. Und zum Schluss gehen wir etwas weiter und manchen ein bisschen Trendanalyse auf dem Gesamtdatensatz. So kann man sehen, wie sich das Benutzerverhalten über die Zeit ändert, und auch, was wann populär ist und war.

Disclaimer: Wie Randal in seiner Redditanalyse mache ich hier nur Aussagen über Wahrscheinlichkeiten! Wenn ihr meine Guidelines befolgt ist das in keinster Weise eine 100%-Garantie, auf Hacker News populär zu werden. Sagt also nicht, ich hätte euch nicht gewarnt.

Beef Ribs, 6 Stunden im Smoker

Es wird mal wieder Zeit für ein Grillrezept hier. Da bietet es sich natürlich an, dass ich einen ProQ Excel 20 Räuchergrill zum Geburtstag bekommen habe, nebst einigen weiteren Utensilien dafür (hitzefeste Handschuhe und ein Buch übers Smoken). Ein besonderes Grillgericht, was ich schon lange mal machen wollte, sind Rippchen – aber vom Rind!

Der ProQ Excel 20 ist ein Water Smoker (mancherorts auch Vertikalsmoker genannt). Die besondere Stärke an Water Smokern ist, dass dort über dem Platz für die Kohle ein sehr großes Wasserbecken eingelassen ist. Dies wirkt als Temperatur-Tiefpaßfilter und ermöglicht so ein fast gradgenaues Halten der Temperatur über viele, viele Stunden hinweg. Das erlaubt Gerichte wie Pulled Pork oder Beef Brisket, die zwölf Stunden und mehr gesmoked werden müssen, einfach über Nacht, ohne dass man andauernd aufstehen muss (huhu, Volker! 8-) *wink*).

Das Wasser sorgt gleichzeitig dafür, dass das Grillgut nicht austrocknet und der Rauch gut eindringt. Alternativ kann man die Wanne auch mit Sand füllen, da muss man dann auch nicht drauf achten, dass er irgendwann verdampft ist (wenn das beim Wasser passiert, steigt die Temperatur sofort merklich). Was man nimmt, ist je nach Gericht verschieden. Aber genug zu den Vertikalsmoker-Technicals (eine nette Übersicht findet sich übrigens hier), kommen wir zu den Rippchen.

BSI überarbeitet Richtlinie RESISCAN, verbietet JBIG2

Im Nachgang zur Xerox-Saga und meinem 31C3-Vortrag überarbeitet das Bundesamt für Sicherheit in der Informationstechnik seine Richtlinie zum „Ersetzenden Scannen“ (= Rechtssicheres Scannen von Dokumenten unter Vernichtung der Originale). Vorab ist gestern einer der Kernpunkte der Überarbeitung auf der RESISCAN-Webseite des BSI erschienen. Ich zitiere:

Bei der Umsetzung der TR-RESISCAN ist hinsichtlich der Auswahl geeigneter Kompressionsverfahren folgende Regelung zu beachten:

  • Beim Scannen MUSS auf die Auswahl geeigneter Bildkompressionsverfahren geachtet werden.
  • Als grundsätzlich geeignet werden sowohl verlustfreie als auch verlustbehaftete Verfahren angesehen.
  • Verfahren, die zur Bildkompression die sog. „Pattern Matching & Substitution“ - Vorgehensweise nutzen, DÜRFEN NICHT eingesetzt werden. Auch das verwandte „Soft Pattern Matching“ DARF NICHT eingesetzt werden.

[…] Diese Regelung ist ab sofort (16.03.2015) gültig und wird mit dem nächsten Release in die Technische Richtlinie BSI TR-03138 aufgenommen.

Pattern Matching & Substitution ist die Standardvorgehensweise bei lossy JBIG2, und Soft Pattern Matching die bei lossless JBIG2 (Infos hier oder in den Veröffentlichungen von Paul Howard et al.1)). Es werden also sowohl die verlustfreie, als auch die verlustbehaftete Variante des verbreiteten JBIG2-Formats „verboten“. Im JBIG2-Standard heißt das ganze „Symbol Matching“.

Den ein oder anderen Leser mag es überraschen, dass auch Seiten, die mit lossless JBIG2 komprimiert wurden, nun plötzlich nicht mehr rechtssicher sein sollen. Immerhin ist es doch schon etwas wert, wenn mittels lossless JBIG2 sichergestellt ist, dass sich die Bilddaten nicht verändern. Die Krux liegt hier in der rechtlichen Praxis:

1)
vgl. z.B. Howard, P.G.; Kossentini, F.; Martins, B.; Forchhammer, S.; Rucklidge, W.J., „The emerging JBIG2 standard“, IEEE Transactions on Circuits and Systems for Video Technology, vol.8, no.7, pp.838,848, Nov 1998, doi: 10.1109/76.735380.

Ist Ihr Unternehmen vom Xerox Scanning-Bug betroffen?

Bei mir melden sich gerade immer mehr Unternehmen, die sich fragen, ob sie erhebliche Probleme haben. Manche sind sich auch schon sicher, dass sie Probleme haben, teils in sicherheitskritischen Tätigkeitsfeldern. Alle haben – verständlicherweise – die Angst vor Publicity gemeinsam. Betroffene Unternehmen haben in der Regel drei Ziele:

  1. Sie wollen das Problem lösen, nach Möglichkeit rückwirkend
  2. Sie wollen keine Publicity, bei vielen Angestellten nach Möglichkeit nicht einmal intern
  3. Sie wollen den Anspruch auf Schadenersatz beibehalten, müssen also aufpassen, nicht im Überschwang Beweismittel für die Fehlfunktion zu vernichten.

Diese Ziele widersprechen teilweise einander; auch große Unternehmen sind nicht gefeit vor Anfängerfehlern. Darum pauschal: Jeder, der sich bei mir meldet, um überhaupt erst einmal die Lage einzuschätzen, kann sich darauf verlassen, dass ich seine Identität nicht preisgebe. Das habe ich über die ganze Angelegenheit so gehandhabt, und damit höre ich jetzt auch nicht auf. Kontaktdaten stehen im Impressum.