News

Eine Datenanalyse von 1.3 Millionen Hackernews-Posts (und wie man populäre Posts schreibt)

Ich widme mich schon seit längerer Zeit wieder der Data Science und dem Machine Learning. Weil aber im Moment beruflich und mit den Vorträgen viel los ist, ist irgendwie noch kein Blogartikel dabei rumgekommen. Also gibt es jetzt einen.

Vor einiger Zeit hat Randal Olson analysiert, wie man populäre Reddit-Posts schreibt. Der Witz ist, dass er das datengetrieben getan hat. Er hat sich einen riesigen Datensatz Reddit-Posts geladen und versucht, direkt aus diesem Datensatz abzuleiten, was begünstigen kann, dass ein Artikel populär wird. Ich habe mir gedacht, es wäre doch mal interessant, dasselbe für Hacker News zu machen. Hacker News ist wie Reddit eine internetweit sehr populäre social-news-Seite, aber es ist mehr in der Technikszene verhaftet als Reddit und hat auch den Ruf, etwas seriöser zu sein (alles aber nur Hörensagen). Mir ist Hacker News zum ersten Mal aufgefallen, als mein Xerox-Artikel dort auf Seite 1 landete, was bei mir ein bisschen Serverlast verursacht hat. Hacker News ist nicht ganz unwichtig im techniklastigen Web. Wenn man es dort auf Seite 1 schafft, kann man ruckzuck die kritische Masse an Aufmerksamkeit zusammen haben, die man braucht, um irgendetwas viral um den Planeten zu jagen.

Wenn man etwas datengetrieben analysieren will, ist das wichtigste was man braucht, … Daten (no shit, Sherlock!). Da trifft es sich doch gut, dass Shital Shah alle Hacker News Posts seit 2006 heruntergeladen und in einem riesigen JSON-File zum Download gestellt hat. Danke, Shital! :-) In seinen JSON-File findet man sage und schreibe 1333789 Posts.

Der Rest dieses Artikels ist gegliedert wie folgt. Als erstes, sozusagen für die eiligen Leser, werden wir in aller Kürze analysieren, was und wann man posten muss um die Chance auf einen populären Post zu maximieren. Diese Analyse ziehen wir nur aus dem vergleichsweise jungen Teil des Datensatzes, nämlich den Posts ab 2013. Danach werden wir versuchen, das analysierte etwas zu erklären, indem wir das generelle Benutzerverhalten der Hacker News-Benutzer grob betrachten. Und zum Schluss gehen wir etwas weiter und manchen ein bisschen Trendanalyse auf dem Gesamtdatensatz. So kann man sehen, wie sich das Benutzerverhalten über die Zeit ändert, und auch, was wann populär ist und war.

Disclaimer: Wie Randal in seiner Redditanalyse mache ich hier nur Aussagen über Wahrscheinlichkeiten! Wenn ihr meine Guidelines befolgt ist das in keinster Weise eine 100%-Garantie, auf Hacker News populär zu werden. Sagt also nicht, ich hätte euch nicht gewarnt.

Technische Neuigkeiten

Nach längerer Zeit hat sich mal wieder was an der Technik getan. Ich nutze jetzt das writr-Template von Dokuwiki, das ich natürlich im Design angepasst habe. Generell war es bei Dokuwiki seit langem ein Problem, dass die Dokuwiki-Templatewelt sehr sparsam aussah, was CMS-fähige, gewartete Templates anging, am liebsten auch noch solche, die technisch up-to-date sind.

Ganz Gallien? Nein, nicht ganz Gallien! Anika Henke (sie ist Dokuwiki-Veteranin – schaut euch das Portfolio an!) erbarmte sich und konvertierte das Writr-Template von Wordpress rüber. Sehr schön. DANKE! Es fühlt sich gut an und unterstützt auch automatisch ganz verschiedene Bildschirmgrößen, eignet sich also insbesondere auch für Mobilgeräte. Voll Web 3.0, altah!!1 8-)

Wo ich schon dabei war, habe ich auch gleich das neue Dokuwiki-Release "Detritus" eingespielt. Und bald gibt es dann auch wieder einen neuen Server mit mehr Schmackes.

Von den Usern weitestgehend unbemerkt dürfte eine weitere, im Fall dieser Webseite nicht minder wichtige Neuerung gewesen sein, die ich bereits länger hier fahre. Dokuwiki ist leider nicht wirklich schnell genug um als CMS zu dienen, was auch mal mit load spikes klarkommt. Das ist okay, denn dafür ist es auch nicht gedacht. Ich hatte allerdings in letzter Zeit mehrmals das Erlebnis, dass ich aufgrund irgendeiner neuen Verlinkung einen solchen Spike bekommen habe und wollte dennoch nicht auf mein geliebtes Dokuwiki verzichten. Darum habe ich seit dem Frühling zur Beschleunigung eine Varnish Cache vorgeschaltet, was die Auslieferung der Seite in der Tat ziemlich beschleunigt hat. Aber darüber schreibe ich ein anderes mal.

Liebe Informatik-Erstis in Bonn 2015, ...

… ich hoffe es hat euch heute genausoviel Spaß gemacht wie mir – Ich wünsche euch ein schönes Studium und würde mich freuen, möglichst viele von euch zum Vortrag um 15 Uhr wieder zu sehen. :-) Danke auch an die FFF-Studentin für die ultimative Vorlage 8-)

Folien zur Keynote auf der IT & Business 2015 (Update: Video)

Hier ist der Vortragssatz (PDF, 5,9 MB) zu meiner Keynote über die Xerox-Saga auf der IT & Business 2015. Vielen Dank für die Einladung, an diejenigen, die mir so tolle Gastfreundschaft haben zukommen lassen (mit selbstgemachten Maultaschen!), für unverhoffte Gespräche über Machine Learning und Text Mining und für das Kennenlernen von Bonnern und Wahl-Hennefern in Stuttgart.

Oh, und wenn man am Rande der Veranstaltung von einer angehenden Informatikerin angesprochen wird, die gerade eine „Bachelorarbeit über den Xerox-Bug“ schreibt, ist das nicht minder cool. Fazit: Es hat wirklich Spaß gemacht! :-)

Update: Hier ist das Video.