News

Folien zu meinem Vortrag "DataScience im öffentlichen Nahverkehr"

Hier gibt es den Foliensatz (PDF, ca. 800kb) meines Vortrages im Bonner DataScience-Meetup. Leider ist er um ein paar Bilder ärmer, da ich die Veröffentlichtungsrechte für ein paar der Bilder bis jetzt nicht zugesprochen bekommen habe. Das ist normal nicht meine Art, unvollständige Folien online zu stellen, aber kann ja nicht immer alles klappen.

Nochmal danke für die rege Teilnahme am Vortrag, gerne wieder! 8-)

Xerox-Saga in den Top Ten der "Initiative Nachrichtenaufklärung"

Die Initiative Nachrichtenaufklärung (INA) ist ein Zusammenschluss von Medienwissenschaftlern und Journalisten, der die Öffentlichkeit auf Themen und Nachrichten aufmerksam machen will, die für einen Großteil der Bevölkerung bedeutend sind, aber trotz ihrer Bedeutung von den deutschen Massenmedien insgesamt vernachlässigt werden (Nominierungskriterien).

Jedes Jahr veröffentlicht die INA zehn solcher Themen, die „Top 10“. Die Xerox-Saga ist heute in die „Top 10“ des Jahres 2016 aufgenommen worden.

Ich freue mich sehr darüber! Danke!

Interessant an der ganzen Sache war nämlich wirklich, dass damals – für mich gefühlt – 99% der ganzen Presseresonanz aus dem Ausland kamen, insbesondere aus dem amerikanischen Raum (löbliche Ausnahmen: SpiegelOnline, Heise und noch einige wenige andere). Verteidigend muss man allerdings anmerken, dass zum gleichen Zeitpunkt die NSA-Affäre hochkochte.

Beim Deutschlandfunk gibt es schon eine Webseite, auf der die Themen kurz vorgestellt werden, die aber insgesamt nicht sooo materialbehaftet ist. Sobald Inhalte dazu auf den Webseiten der INA erscheinen, liefere ich diese nach.

Update: Hier nun der Bericht der INA zur Xerox-Saga und hier auch die gesamten Top 10.

Das Leben ist nicht wie Schach. Es ist wie Tetris.

Ich habe neulich einen hervorragenden Artikel von Tor Bair gelesen, in dem beschrieben wird, dass das Leben – anders als viele denken – erstaunlich wenig mit einem Schachspiel gemeinsam hat (und doch von einigen ähnlich angegangen wird).

Viel, viel mehr gemeinsam hat es mit – Tetris! Die Gründe sind sehr einleuchtend. Ich versuche mich hier mal an einer Zusammenfassung, auch als persönliche Notiz.

  • Das Schachspiel ist zu 100% auf einen Gegner ausgerichtet. In Tetris spielt man – wie im Leben – nur gegen die Zeit und versucht, einen zufälligen Strom von Eingaben in irgendeine sinnvolle Ordnung zu bringen. Es gibt jede Menge zufälliges Rauschen, zufällig guten und schlechten Input. Der einzige Gegner ist man selbst.
  • Im Schachspiel kontrollieren die beiden Spieler das Spielfeld, also die Lebenswelt, komplett. Wenn ein Spieler beispielsweise ein Supercomputer ist, kann der 20 Züge in die Zukunft schauen und auch versuchen, diese zu beeinflussen. In Tetris kann man einen Stein weit in die Zukunft schauen, das wars. Genau wie im Leben sind Ereignisse bei Tetris einfach eine Wahrscheinlichkeitssache. Im Leben passieren Zufälle, die man eigentlich als komplett unwahrscheinlich angesehen hätte. Das ist im Schachspiel nicht so. In Tetris hat man, wiederum sehr lebensnah, auch keine Zeit für utopisch weite Vorhersagehorizonte, weil man dabei ist, den gerade fallenden Stein unter Zeitdruck in die erschaffene Ordnung einzubringen.
  • Schach wird kontinuierlich schwerer. Man steigt auf, kriegt schwerere Gegner, die Figuren werden komplexer. In Tetris bleiben die Aufgaben mit fortschreitender Zeit nicht komplexer – Tetris wird nur schneller.
  • Anders als beim Schachspiel kriegt man bei Tetris, ganz wie im Leben, nicht immer gesagt, wenn man irgendwas gewonnen hat. Es geht einfach weiter. Also; Hin und wieder mal zurückgucken und feststellen, was man alles gewonnen hat. :-)

Hier ist der Originalartikel.

Eine Datenanalyse von 1.3 Millionen Hackernews-Posts (und wie man populäre Posts schreibt)

Ich widme mich schon seit längerer Zeit wieder der Data Science und dem Machine Learning. Weil aber im Moment beruflich und mit den Vorträgen viel los ist, ist irgendwie noch kein Blogartikel dabei rumgekommen. Also gibt es jetzt einen.

Vor einiger Zeit hat Randal Olson analysiert, wie man populäre Reddit-Posts schreibt. Der Witz ist, dass er das datengetrieben getan hat. Er hat sich einen riesigen Datensatz Reddit-Posts geladen und versucht, direkt aus diesem Datensatz abzuleiten, was begünstigen kann, dass ein Artikel populär wird. Ich habe mir gedacht, es wäre doch mal interessant, dasselbe für Hacker News zu machen. Hacker News ist wie Reddit eine internetweit sehr populäre social-news-Seite, aber es ist mehr in der Technikszene verhaftet als Reddit und hat auch den Ruf, etwas seriöser zu sein (alles aber nur Hörensagen). Mir ist Hacker News zum ersten Mal aufgefallen, als mein Xerox-Artikel dort auf Seite 1 landete, was bei mir ein bisschen Serverlast verursacht hat. Hacker News ist nicht ganz unwichtig im techniklastigen Web. Wenn man es dort auf Seite 1 schafft, kann man ruckzuck die kritische Masse an Aufmerksamkeit zusammen haben, die man braucht, um irgendetwas viral um den Planeten zu jagen.

Wenn man etwas datengetrieben analysieren will, ist das wichtigste was man braucht, … Daten (no shit, Sherlock!). Da trifft es sich doch gut, dass Shital Shah alle Hacker News Posts seit 2006 heruntergeladen und in einem riesigen JSON-File zum Download gestellt hat. Danke, Shital! :-) In seinen JSON-File findet man sage und schreibe 1333789 Posts.

Der Rest dieses Artikels ist gegliedert wie folgt. Als erstes, sozusagen für die eiligen Leser, werden wir in aller Kürze analysieren, was und wann man posten muss um die Chance auf einen populären Post zu maximieren. Diese Analyse ziehen wir nur aus dem vergleichsweise jungen Teil des Datensatzes, nämlich den Posts ab 2013. Danach werden wir versuchen, das analysierte etwas zu erklären, indem wir das generelle Benutzerverhalten der Hacker News-Benutzer grob betrachten. Und zum Schluss gehen wir etwas weiter und manchen ein bisschen Trendanalyse auf dem Gesamtdatensatz. So kann man sehen, wie sich das Benutzerverhalten über die Zeit ändert, und auch, was wann populär ist und war.

Disclaimer: Wie Randal in seiner Redditanalyse mache ich hier nur Aussagen über Wahrscheinlichkeiten! Wenn ihr meine Guidelines befolgt ist das in keinster Weise eine 100%-Garantie, auf Hacker News populär zu werden. Sagt also nicht, ich hätte euch nicht gewarnt.