SpiegelMining: Kassen- und Privat-Artikel. Das Zweiklassensystem von SpiegelOnline
Im letzten Artikel hatten wir uns gewundert, dass bei manchen Spiegelartikeln die Autorennamen ausgeschrieben unter dem Titel zu finden sind und andere Artikel nur eine Kürzelliste unten am Ende haben. Diesem Phänomen rücken wir heute zu Leibe, denn es gibt dahinter einen – für mich überraschenden – Sinn. Eigentlich wollte ich heute über was anderes schreiben, aber das gibt es dann nächstes mal.
Was bisher geschah: Das hier ist der dritte Artikel meiner Serie „SpiegelMining“. Im ersten Artikel haben wir gelernt, wie ich über die letzten 2 Jahre über 70.000 Artikel von SpiegelOnline heruntergeladen habe und nun auswerte. Wir hatten Zusammenhänge zwischen Erscheinungszeitpunkt Rubrik Textlänge gefunden. Im zweiten Artikel haben wir die Autoreninformationen zu jedem Artikel hinzugezogen, das soziale Netzwerk zwischen den Autoren errechnet und analysiert.
Ich hatte mich beim Parsen der Autoren-Informationen rechtschaffen darüber geärgert, dass die Autoren zu den Artikeln manchmal ausgeschrieben direkt unter dem Titel stehen, und sehr oft einfach in einer kursiv geschriebenen Zeile unter dem Haupttext. Stehen die Autoren unten, sind sie auch meist nicht ausgeschrieben, sondern in Kürzeln verschleiert. Das hat mir wirklich Arbeit gemacht. Damit wir wieder reinkommen, wiederhole ich die zwei Beispiele aus dem letzten Artikel:
In diesem Artikel über den Würzburger Axtmörder findet sich direkt unterhalb des eigentlichen Inhalts eine kursive Autorenangabe in Kürzeln: sms/dpa/AFP/Reuters. Wie wir sehen, sind dort auch die Nachrichtenagenturen enthalten.
Dann gibt es andere Artikel wie diesen hier über Donald Trump, wo keine Autorenangabe unten nach dem Text kommt, dafür aber ausgeschriebene Namen der Autoren direkt unter dem Titel stehen:
Gucken wir mal, wie oft die Autoreninfos über alle Artikel hinweg oben und unten zu finden sind, damit wir ein Gefühl für die Daten bekommen.
Die große Mehrheit, nämlich 63% aller Artikel, hat nur unten eine Autoreninformation (da dann wohl meist mit Kürzeln). Ca. 26% haben nur oben eine Autoreninfo (das sind die ausgeschriebenen). Ungefähr 9,5% haben gar keine Info, weder oben noch unten, und ca. 1,2% haben oben und unten irgendwas. Die Artikel ganz ohne Infos können ein paar Messfehler enthalten, sind aber auch teilweise keine Artikel im eigentlichen Sinne (Livestreams zum Beispiel).
Zeitliche Veränderungen über diese Anteile gibt es auch keine auf den ersten Blick auffälligen:
Was könnte SpiegelOnline nun verleiten, bei manchen Artikeln die Realnamen der Autoren hervorheben zu wollen, und bei manchen zu verschleiern? Wohlgemerkt kann man sich, wenn man die Namen der Autoren zu den Kürzeln wissen will, im Impressum umgucken, das hatte ich ja im letzten Artikel schon genannt. Worum geht es also dabei?
Ein spontaner Einfall von mir war: Journalisten und auch Medienhäuser sind naturgemäß sehr auf ihr Image in der Öffentlichkeit bedacht und wissen auch mehr als der Durchschnittsbürger darüber, wie man ein solches erzeugt und vernichtet. Dabei spielt das Internet natürlich eine große Rolle. Wenn ich also ohnehin sehr viele Artikel schreibe, weil ich Journalist bin, dann kann ich auch einfach dafür sorgen, nur unter den allerbesten davon Googlebar zu sein!
Wer mich als Journalist googelt, soll bitte viele exzellente Artikel finden, und nicht den ganzen Crap, den ich sonst noch so am Tag raushauen oder von DPA abschreiben muss, weil der Job es eben gerade erfordert.
Meine These war also: Artikel mit ausgeschriebenen Namen sind erste Wahl, bzw. „HighQuality“. Mit denen hat sich der Autor mehr Mühe gegeben. Artikel ohne ausgeschriebene Namen zweite Wahl. Ausgeschrieben werden die Namen in der Regel oben unter dem Titel, während es unten fast nur Kürzel gibt. Also wären Artikel, die die Autoreninfo oben haben, die erste Wahl und der Rest die Zweite.
Nun ist die Frage: Wie misst man, ob sich ein Autor Mühe gegeben hat? Das ist sehr schwer. Aber es gibt einen Indikator: Wie lang der Text ist. Verschaffen wir uns also zuerst mal einen Überblick darüber, wie die Verteilung der Textlängen bei SpiegelOnline so ist. Im ersten Artikel hatten wir das im Hinblick auf Rubriken und Tageszeiten gemacht, aber wir hatten nicht nur einfach mal die Verteilung aller Textlängen angeschaut, weil ich damals nicht noch eine zusätzliche Art Diagramm einführen wollte. Das holen wir jetzt nach.
Diese Art Artikel nennt sich Histogramm und ist gut geeignet, um Verteilungen darzustellen. Die X-Achse ist die Textlänge. Jeder Balken gibt an, wieviele Artikel es mit ungefähr seiner Textlänge gibt. Würde sich eine große Häufung rechts ausbilden, gäbt es viele eher lange Artikel. Ein großer Haufen links bedeutet, dass es viele eher kurze Artikel gibt. Ein Histogramm ist häufig eine sehr gute Wahl um sich mal ein Bild über Besonderheiten in einem Merkmal der Daten zu machen. Wäre eine riesige Spitze z.B. bei exakt 753 Worten, könnte man sich überlegen, ob es da vielleicht eine Regel gibt, die solche Artikel fördert und warum. So etwas sieht man hier nicht.
Die allermeisten Texte bei Spiegelonline spielen sich zwischen 100 und 1500 Wörtern ab (das Histogramm ist zu beiden Seiten beschnitten, weil da kaum noch was kam). Wie man sieht gibt es einen großen Knubbel Artikel, die zwischen 100 und 500 Worten lang sind. Das sind schon deutlich über die Hälfte, nämlich knapp 46.000 Artikel (ca. 65%). Danach gibt es noch mal eine weitere Spitze um die Textlänge von 700 herum, und je länger die Textlänge ab da wird, um so weniger Artikel kommen noch hinzu.
Jetzt machen wir mal den Anteil derjenigen Artikel sichtbar, die oben unter dem Titel eine Autoreninfo haben (wir erinnern uns: Das sind die mit ausgeschriebenen Autorennamen, hinter diesen Artikeln vermuten wir hohe Qualität und damit längere Texte):
Die orangen Blöcke sind mit ausgeschriebenen Autoren. Und siehe da – Bingo! Es gibt einen auffälligen Textlängenunterschied. Spiegel fährt ein klares Zwei-Klassen-System. Die Artikel, bei denen Autoren namentlich genannt sind, haben eine ganz andere Textlängenverteilung als diejenigen ohne namentlich genannte Autoren.
Die ohne Autoren haben den Median (also die Textlänge, die in der Mitte liegt, wenn man alle diese Artikel nach Textlänge sortiert) bei 291 Worten. Artikel mit namentlich genanntem Autor sind dagegen im Median über 2.5 mal so lang (739 Worte). Das ist mal ein sichtbarer Unterschied! Ich sollte dringend darüber nachdenken, bei den kürzeren meiner Blogartikel meinen Klarnamen durch „dkr“ zu ersetzen. Die orangen „HighQuality“-Artikel sind überhaupt das, was den die zweite Häufung erzeugt. Von allen Artikeln sind übrigens ca. 27% HighQuality, der Rest ist LowQuality.
Jetzt ist der erste Moment, wo ich eine relativierende Anmerkung bezüglich meiner ketzerischen Überschrift machen kann. Die ist im Grunde falsch! Kassen- und Privatartikel suggerieren, dass man für die Privatartikel bezahlen muss, oder dass diese nur ausgewählten Personen zur Verfügung stehen. Das ist nicht der Fall. Sowohl Kassen- als auch Privatartikel stehen Jedermann zur Verfügung. Hängt dem Spiegel also nicht wegen meiner absichtlich überspitzten Überschrift irgendeine an den Haaren herbeigezogene Sozialneiddiskussion ans Bein. Im übrigen werden die anderen Medien das ganz genauso machen.
Wir hatten ja im ersten Artikel festgestellt, dass sich die durchschnittlichen Textlängen verschiedener Rubriken teilweise erheblich voneinander unterscheiden. Ist es denkbar, dass das einfach daran liegt, dass es in den Rubriken, die für lange Texte bekannt sind, einfach mehr „benamste Qualitätsware“ gibt? Wir schlüsseln das farbige Histogramm einmal nach Rubriken auf (ich mache hier jetzt Cherry Picking und präsentiere nur die interessantesten). Und siehe da, es gibt wirklich erhebliche Unterschiede über die Kategorien hinweg.
Beachtet, dass die Sub-Plots unabhängige Y-Achsen haben. Das ist, damit die dominierenden Rubriken nicht alle anderen plattdrücken.
Bei den Rubriken Auto, KarriereSPIEGEL und Kultur kann man anscheinend übergreifend so stolz auf seine Artikel sein, dass man damit in Google genannt werden will. Ein großer Teil der dortigen Artikel enthält Namensnennungen bei den Autoren. Panorama, Sport, Wirtschaft, Wissenschaft … ach, lassen wir das am besten. Politik ist so im unteren Mittelfeld. Beachtet, dass Politik, Panorama und Sport die drei dominierenden Kategorien sind. Hier ist der Output so hoch, dass man vielleicht einfach viele Artikel schreiben muss, für die man lieber nicht genannt werden will.
Das ist auch ganz natürlich: Gerade im Panorama spielt sich das Tagesgeschehen ab. Habt ihr mitverfolgt, vieviel Bullshit beim Münchner Amoklauf unter dem Deckmantel der Liveberichterstattung durch die Medien ging, bis überhaupt mal irgendwas klar war? Ihr würdet neben so einem Crap auch nicht googelbar sein wollen.
Wir fassen noch mal alle Rubriken in einen Plot zusammen, aber ohne die genaue Verteilung, dafür geordnet nach Rubrikvolumen:
In der Tat, insgesamt steigt zwar mit größerem Rubrikvolumen auch die Anzahl der HighQuality-Artikel. Es ist also nicht so, dass es eine feste Anzahl an HighQuality-Artikeln in jeder Rubrik gibt, und wer als Rubrik halt zu groß ist, hat Pech. Aber es gibt in diesem Anstieg stramme Löcher, besonders sichtbar bei Panorama.
Um uns ein abschließendes Bild zu verschaffen, ziehen wir mal alle Balken mal hoch bis an die obere Bildgrenze. So verlieren wir zwar das Gefühl fürs Rubrikvolumen, können aber dafür die Anteile der HighQuality-Artikel pro Rubrik besser vergleichen:
Da sieht man erstmal, wie klein der Anteil an HighQuality-Artikeln im Panoramateil eigentlich ist. Und gleichzeitig ist der Kulturteil sogar nur zweiter hinter der Autorubrik. Na, es ist eben Deutschland hier.
Wir könnten das übrigens auch pro Autor machen: Messen, wie hoch der Anteil an HighQuality-Artikeln ist. Finde ich aber nicht gut, denn das wird erstens sehr verzerrt sein, weil die Autoren extrem unterschiedliche Artikelmengen publizieren, und zweitens denke ich nicht, dass sie da selbst Einfluss auf ihre guten oder schlechten Werte haben, also werde ich hier niemanden irgendwelchem Internetgebrabbel aussetzen.
Aber vielleicht erinnert ihr euch, dass wir im ersten Artikel gemerkt hatten, dass die Länge von Artikeln sehr stark von der Tageszeit und dem Wochentag abhing? Wir wiederholen das mal kurz. So sah das aus:
Und jetzt gucken wir mal, wann die HighQuality-Artikel so veröffentlicht werden. Hier ist wieder eine Heatmap. Sie ist eingefärbt je nach dem, wie hoch der Anteil der HighQuality-Artikel in der Zelle ist. Wir haben im Schnitt 27% HighQuality-Artikel. Das entspricht in der Grafik einem unauffälligen Grauton. Rote Zellen liegen über diesem Wert, blaue Zellen darunter. Je knackiger die Farbe, desto weiter liegen sie drüber bzw. drunter.
Siehe da – die Farbgebung korrespondiert sehr genau zu unserer Analyse von damals, wo wir die Artikellänge nach Wochentag und Stunde analysiert haben. An Wochentagen zwischen 5 und 7 Uhr werden weit überdurchschnittlich viele HighQuality-Artikel veröffentlicht. Am Wochenende weiter über den Tag hinweg. Die knallrote Zelle Samstags zwischen 4 und 5 Uhr ist insofern ein Ausreißer, als dass sie insgesamt nur drei Artikel enthält. Von denen sind dann direkt mal zwei HighQuality, weil sie aufgrund spezieller Ereignisse zu dieser Zeit geschrieben wurden (Pariser Terror und Putschversuch in der Türkei). Da waren wir in unserem ersten Artikel schon dem spiegelinternen Zwei-Klassen-System auf der Spur, ohne es zu wissen.
Was wir noch gar nicht betrachtet haben, sind die Nachrichtenagenturen, die ich ebenfalls als Autoren miterfasse und separat zähle. Als letzte Analyse für heute schauen wir darum mal, wie viele Autoren zu einem Artikel beigetragen haben, und zu wievielen Artikeln durchschnittlich Nachrichtenagenturen beigetragen haben. Gerade letzteres ist nämlich ein weiterer Indikator dafür, wieviel Arbeit SpiegelOnline selbst in einen Artikel reingesteckt hat. Und diese Betrachtung spalten wir auf in HighQuality- und LowQuality-Artikel. Artikel, die gar keinen Autor verzeichnet haben (sei es aufgrund von Parsingfehlern oder einfach weil da wirklich keiner steht) sind hier gefiltert. LowQuality-Artikel sind wieder Blau, und HighQuality ist Orange.
Erstmal das unspektakuläre. Bei den HighQuality Artikeln sind mit 1,17 im Schnitt etwas mehr Autoren beteiligt als bei den LowQuality-Artikeln (1,049). Aber siehe da: Bei der großen Mehrheit der LowQuality-Artikel ist wenigstens eine Nachrichtenagentur beteiligt (= die Artikel stammen nicht komplett oder gar nicht aus der Feder von SpiegelOnline). Bei den HighQuality-Artikeln ist der Anteil der Artikel mit Nachrichtenagentur dagegen extrem klein. Die HighQuality-Artikel sind, grob gesagt, die selbstgeschriebenen. Ich gucke mal in die Daten und mache das noch etwas genauer, damit wir nicht nur die Durchschnittswerte haben:
- Von den HighQuality-Artikeln ist nur bei 2,2% eine Agentur mit im Spiel.
- Von den LowQuality-Artikeln ist bei satten 79,6% wenigstens eine Agentur mit angegeben.
Das ein weiteres starkes Argument dafür, dass unsere Annahme, es gebe ein stark ausgeprägtes Artikel-Zweiklassensystem, zutrifft. Also: Haltet euch an die Artikel mit ausgeschriebenen Namen unter der Überschrift, dann kriegt ihr die, die auch wirklich von SpiegelOnline selbst verfasst wurden. Wenn ihr das tut, werdet ihr allerdings nicht mehr sooo viel Panorama lesen.
Wir hatten hier ja schon mal die Frage angeschnitten, ob vielleicht im Laufe der Zeit Rubriken zusammengestutzt oder erweitert werden. Indikatoren für sowas können ein sinkender Artikeloutput pro Zeit oder eine sinkende Anzahl an verschiedenen Mitarbeitern über die Zeit in einer Rubrik sein. Mit dem Wissen, was wir jetzt haben, können wir mal den Anteil der HighQuality-Artikel über die Zeit sichtbar machen. Das ist ein viel subtilerer Indikator für Zusammenstreichungen, weil er vom Leser viel weniger bemerkt wird, als wenn eine Rubrik plötzlich stark an Output verliert oder der Lieblingsredakteur dort wechselt. Das ist sowas, was man als Leser nach einem halben Jahr irgendwie unscharf im Bauch bemerkt in Form eines Gefühls wie „hm, hat irgendwie nachgelassen, aber ich kann mit dem Finger nicht drauf zeigen.“ Hier sind ein paar ausgewählte Rubriken, bei denen ich diese Auswertung mal gemacht habe (der Rest ist unauffällig):
Beachtet die Trendlinien, und dass wir jetzt wieder unabhängige Y-Achsen für die einzelnen Sub-Plots haben (sonst drücken die Rubriken mit hohem Qualitätsanteil die anderen platt, und man sieht nichts mehr). Beim Sport steigt der Anteil der HighQuality-Artikel an, das kann aber auch ein Effekt der EM und Olympischen Spiele sein, die jetzt gerade stattgefunden haben bzw. stattfinden. Panorama hatten wir oben schon als Rubrik mit extrem niedrigem Anteil von HighQuality-Artikeln identifiziert, und was soll ich sagen? Er sinkt noch weiter („nach schwachem Anfang stark abgefallen“). Definitiv auf dem aufsteigenden Ast ist die Netzwelt, hier wird anscheinend seit Mitte 2015 mehr investiert. Der Anstieg der gemessenen Qualität in den Reise-Artikeln ist wieder ein gutes Beispiel von einer saisonalen Schwankung: Jetzt ist gerade Reisezeit, also kommt eine steigende Tendenz wahrscheinlich schon daher raus, weil wir eben jetzt gerade aufgehört haben, zu messen. Beim Karrierespiegel ist der Anteil der High-Quality-Artikel stark sinkend, war aber auch vorher vergleichsweise hoch.
Ein sehr versöhnliches Schlusswort habe ich aber noch: Seit neuem gibt es die Bezahlartikel von SpiegelOnline, genannt SpiegelPlus (hier hatte ich mal einen Blogartikel zum Thema, wie man die entschlüsselt). Mittlerweile haben wir also ein Drei-Klassen-System. Weil es diese Art Artikel erst so kurz gibt, konnte ich darüber bis jetzt nur sehr wenig Daten sammeln. Darum kann ich für diese Art Artikel z.B. noch keine zuverlässige Artikellängen-Verteilung darstellen. Aber es reicht, um einen Textlängen-Median zu bilden.
Wir hatten oben gesagt: Artikel ohne explizite Autoren-Namensnennung (LowQuality) haben 291 Worte im Median. Die HighQuality-Artikel mit expliziter Namensnennung haben 739. Und die Bezahlartikel, die ich bis jetzt gemessen habe, haben 1111 Worte im Median.
Wenn ihr bei SpiegelPlus etwas bezahlt (und nicht nur böswillig meine Entschlüsselung nutzt ), dürft ihr also mit Fug und Recht hoffen, für euer Geld etwas zu bekommen.
Ich hoffe, euch hat dieser kleine Zwischenartikel ebensoviel Spaß gemacht wie mir. Der war gar nicht geplant, sondern ist in der Tat nur entstanden, weil mich interessiert hat, warum Autoren manchmal oben und manchmal unten im Artikel stehen. Aber das ist ja ganz natürlich bei solch einer Forschungsarbeit – man weiß nicht, wohin es einen trägt.
Comments
Aufgrund von Caching kann es bis zu zwei Minuten dauern, bis ein Kommentar erscheint!
Da ich gerade ziemlich viel manuellen Spam aus Russland und Pakistan bekomme und keine Zeit habe, da wirksam gegen anzugehen, ist die Kommentarfunktion bis auf weiteres abgeschaltet. Wenn's pressiert, mailt mir!

@Till: Hi Till, ich habe in der tat zweimal das Wort „signifikant“ verwendet, aber nur im ganz landläufigen Sinne. Ich habe das jetzt mal in „auffällig“ geändert, was landläufig hier auch passt, aber keine Überlappung mit dem statistischen Signifikanzbegriff hat. Die Verteilung welcher Häufigkeit meinst du? Falls du die Häufigkeitenverteilung der verschiedenen Artikellängen meinst, würde ich mutmaßen, dass das einfach zwei Gaussglocken sind, eine für HighQuality und eine für LowQuality-Artikel. Wir hatten für unsere Mutmaßungen unfaire Voraussetzungen: Ich habe vor dem veröffentlichen der Bilder natürlich stark rumprobiert, was einsichtig aussieht und dabei auch die Gruppen isoliert von einander aufgeplottet gesehen.
Edit: Wegen der Nachrichtenagenturen: Ich habe an deinem Kommentar gemerkt, dass ich vergessen habe, eine Abbildung einzubauen! Hups. Ist jetzt drin, vielleicht wird es jetzt klarer.

@David Kriesel: Ich hätte in der Tat dazu schreiben sollen, welche Verteilung ich meine. Ja, ich fand die Verteilung der Häufigkeiten von den Artikellängen sehr interessesant (erste Abbildung). Bei den orangenen Balken könnte es sich in der Tat um eine Gausverteilung handeln. Bei den blauen Balken bin ich da eher skeptisch, da zu unsymmetrisch und mit langem Schwanz auf der rechten Seite.
Der Grund warum ich mir da Gedanken zu den Verteilungen mache, ist auch, dass man da vielleicht zwei unterschiedliche Prozesse für die verschiedenen Artikel annehmen kann.
1. Prozess: Artikel kommen von einer Agentur oder werden von einem Autor geschrieben. In den nachfolgenden Redaktionsrunden werden diese Artikel dann immer weiter gekürzt, da nicht wichtig genug. Daraus würde dann eine Weibull-Verteilung (Minimierungsprozess) entstehen.
2. Prozess: Artikel werden von einem oder mehreren Autoren geschrieben. Das Thema wird in der Redaktionssitzung für wichtig gehalten, bzw. die Autoren haben viel zu sagen, so dass es keine weiteren Kürzungen mehr gibt. Daraus würde dann eher eine Gaussverteilung resultieren.
Wenn man sich also die Verteilungen angucken könnte und dabei einen Unterschied zwischen den beiden Typen feststellen würde, wäre das schon recht interessant.
In dem Fall müsste es mehrere weitere Auswirkungen geben:
1. Für die Artikel mit Kürzeln müsste die Anzahl der Namen negativ mit der Länge korrelieren (je mehr personen kürzen, desto kürzer wird der Gesamtartikel).
2. Für die Artikel mit vollen Namen sollte es keinen solchen Einfluss geben, bzw. der Einfluss müsste wesentlich schwächer sein.
3. Der Personenkreis für die vollen Namen sollte wesentlich kleiner sein. Insbesondere sollten sich dort Chefredakteure u.Ä. häufen.
4. Unter den Artikeln mit Kürzeln sollten sich mehr Agenturartikel finden (hattest du oben berichtet).
Hast du vor die Daten irgendwann auch freizugeben (z.B. bei Kaggle)? Wäre vielleicht auch für andere interessant mal zu sehen, was man da finden kann.

Ich teste das sehr gerne, sobald ich dazu komme

Hallo David,
wirklich tolle Serie! Ich bin richtig gespannt auf jeden neuen Artikel. Du machst das wirklich schön illustrativ, sodass jeder - auch ohne Fachwissen - schnell einen Einblick bekommt, was man alles an Informationen aus „nur Metadaten“ herausziehen kann. Weiter so!
Beste Grüße Lutz
PS: Über Signifikanztests würde ich mich freuen, bspw. bei den Regressionen! Vielleicht inspirierst du damit ja sogar noch jemanden, sich über Statistik zu belesen… :)

@Lutz: Hi Lutz,
danke für dein Feedback. Ja ich bin auch schon am überlegen, ob wir mal eine Section über Signifikanztests machen, wobei das in Relation zum Rest des Stoffes nicht überhand nehmen sollte. Vielleicht mach ich irgendwann einen Extra-Artikel, in dem wir ein paar ausgewählte Beobachtungen aus allen Artikeln auf Signifikanz testen, um mal zu zeigen, wie sowas grundlegend abläuft. Den könnten nicht-interessierte Leser dann einfach auslassen … ich muss mir dazu noch ein paar Gedanken machen (und noch mal meine Statistikliteratur rauskramen
).

@David Kriesel: Alles klar, cool! Wenn du Hilfe mit der Statistik brauchst, sag Bescheid! Meine Email siehst du ja vermutlich?

Was vielleicht noch interessant wäre:
Hier (http://m.faz.net/aktuell/feuilleton/medien/studie-wie-ueber-fluechtlinge-berichtet-wurde-14378135.html) wird über eine Studie berichtet, die die Tonalität der Artikel zur Flüchtlingskrise zeigt. Zwanzig Prozent der Berichte der „Tagesschau“ seien implizit wertend gewesen, bei „Spiegel Online“ an die vierzig Prozent, bei der Online-Ausgabe der „Welt“ fünfzehn Prozent.
Mir ist das beim Spiegel auch schon unangenehm aufgefallen, dass Wertungen vorgenommen werden, die ich mir als mündiger Leser lieber selber bilde.
Würde so etwas auch aus deinen Daten hervorgehen können?

Großartige Serie - Danke.
Hörte unlängst in einem Podcast, bei dem es u.A. um die Ermittlung der Relevanz des Inhalts von Texten ging, dass man diese über das Kompressionsverhalten der Texte ermitteln kann.

@Erik: Wahrscheinlich müsste man einen Katalog von wertenden und neutralen Adjektiven zur Verfügung haben. Stimmts @David?

Ist sogar etwas einfacher: Spon unterscheidet zwischen Meldungen und Autorengeschichten - werden auch unterschiedlich gespielt und bezahlt. Alle weiteren von dir genannten Gründe, vermute ich mal, sind sekundäre Effekte. Meldungen sind kurz und werden erheblich schlechter bezahlt als Geschichten - und sind oft entweder durch Agenturmeldungen ersetzbar oder funktionieren genau wie sie: Beschreibung eines Sachverhalts samt etwas Kontext.
Siehe auch: https://dju.verdi.de/++file++51ff7d94890e9b71a1000027/download/%5CBLNPFS01%5Cjournal$%5CRelaunch%5Cvereinbarung-zwischen-spiegel-online-und-autoren-vom-mai-2012.pdf

Super Vortrag!
Gab es schon ein direktes Feedback von SPON?
Spiegel Online scheint das Thema nicht allzu hoch zu hängen! Ich habe nur einen Treffer gehabt.
Google:
SpiegelMining site:spiegel.de

kann mich meinen vorredner nur anschliessen. deine vorträge sind fantastisch!
und da ich gerade eine erfahrung gemacht habe, die mich ins grübeln brachte, dachte ich, das könnte etwas für dich sein. und zwar.
auf http://www.focus.de/politik/deutschland/focus-online-umfrage-wenn-am-sonntag-bundestagswahl-waere-wen-wuerden-sie-waehlen_id_6467621.html
findet derzeit ein umfrage statt. dort kann jeder so oft abstimmen, wie er will.
als ich darauf auf facebook erfuhr, so gegen 15uhr, war die afd bei über 70%. die nichtwähler waren so bei 20% und die regierenden schafften teilweise nicht einmal die 5% hürde.
kurz vor mitternacht, also vor einer stunde, sah es dann plötzlich völlig anders aus.
auf einmal dominierten die nichtwähler mit 43% gegen 40% bei der afd. laut der kommentare bei facebook hatte die afd gegen 15uhr etwa 94.000 wählerstimmen. 9 stunden später waren es dann nur noch rund 84.000!
und dann ging es richtig ab. ich hab alle paar minuten aktualisiert und wieder abgestimmt (andere partei - blieb immer bei 1%) und die abgegebenen stimmen schnellten in die höhe. innerhalb von etwa 5 min wurden 60.000 stimmen abgegeben und die spd stand plötzlich mit 13% mit auf dem podest.
jetzt ist es 1:20uhr und seit dem screenshot ( hab die letzten male jetzt direkt die seite gespeichert. ich kanns also beweisen ) um 0:00uhr sind die abgegebenen stimmen um weitere 79.000 gestiegen. nun liegt die spd mit 25% knapp vor der afd (24%). 40% sind nichtwähler.
fände es interessant, wenn du einmal solchen umfragen auf den zahn fühlen würdest. ich hoffe bei spiegel sind da auch ein paar, die du einfangen konntest.
lg und danke für deine aufklärungsarbeit. bleib,wie du bist.
Joscha

kann mich meinen vorredner nur anschliessen. deine vorträge sind fantastisch!
und da ich gerade eine erfahrung gemacht habe, die mich ins grübeln brachte, dachte ich, das könnte etwas für dich sein. und zwar.
auf http://www.focus.de/politik/deutschland/focus-online-umfrage-wenn-am-sonntag-bundestagswahl-waere-wen-wuerden-sie-waehlen_id_6467621.html
findet derzeit ein umfrage statt. dort kann jeder so oft abstimmen, wie er will.
als ich darauf auf facebook erfuhr, so gegen 15uhr, war die afd bei über 70%. die nichtwähler waren so bei 20% und die regierenden schafften teilweise nicht einmal die 5% hürde.
kurz vor mitternacht, also vor einer stunde, sah es dann plötzlich völlig anders aus.
auf einmal dominierten die nichtwähler mit 43% gegen 40% bei der afd. laut der kommentare bei facebook hatte die afd gegen 15uhr etwa 94.000 wählerstimmen. 9 stunden später waren es dann nur noch rund 84.000!
und dann ging es richtig ab. ich hab alle paar minuten aktualisiert und wieder abgestimmt (andere partei - blieb immer bei 1%) und die abgegebenen stimmen schnellten in die höhe. innerhalb von etwa 5 min wurden 60.000 stimmen abgegeben und die spd stand plötzlich mit 13% mit auf dem podest.
jetzt ist es 1:20uhr und seit dem screenshot ( hab die letzten male jetzt direkt die seite gespeichert. ich kanns also beweisen ) um 0:00uhr sind die abgegebenen stimmen um weitere 79.000 gestiegen. nun liegt die spd mit 25% knapp vor der afd (24%). 40% sind nichtwähler.
fände es interessant, wenn du einmal solchen umfragen auf den zahn fühlen würdest. ich hoffe bei spiegel sind da auch ein paar, die du einfangen konntest.
lg und danke für deine aufklärungsarbeit. bleib,wie du bist.
Joscha

@Jemand: ja natürlich, es gibt Artikel, die sind von Spiegel-Mitarbeitern geschrieben, da steht der Name drüber. Und es gibt Artikel, die sind nur von irgendwo übernommen, vielleicht gekürzt oder abgeändert, und da stehen Kürzel und Agenturen drunter. Aber ausser uns beiden hat das wohl noch niemand gemerkt.

Hi, der Link zur Verschlüsselung von Bezahlartikeln zeigt auf eine Leere Seite. http://www.dkriesel.com/blog/2016/0703_verschluesselung_von_spiegelonline-bezahlartikeln_extrem_einfach_knackbar
Du verwendest hier gerne das Wort „signifikant“. Hast du das nur so grob vom Blick her abgeschätzt, oder hast du auch irgendwelche wirklichen Tests gerechnet? Gerade bei der Anzahl der Autoren und Nachrichtenagenturen würde mich mal interessieren, ob da was dran ist, oder ob das nur eine Zufallsschwankung sind.
Die andere Frage wäre, welche Verteilung der Häufigkeit zugrunde liegt. Für mich sieht das sehr nach eine Poisson-Verteilung aus, ich kann mir aber gerade nicht theoretisch herleiten, wieso das der Fall sein sollte. Alternativ könnte es auch eine Weibull-Verteilung sein, als Limit-Verteilung für Min würde das vielleicht sogar Sinn ergeben. Falls sich da in der Tat eine Verteilung finden lassen, wäre es vielleicht interessant zu sehen, wie sich die Artikelarten auf die Parameter auswirken, das scheint mir nicht identisch für alle Artikel Kategorien.