Erste Vermutungen zur Ursache der Xerox-Scanfehler

Die folgenden Informationen sind auch in den Originalartikel eingepflegt, damit ihr alles auf einen Blick habt.

Der Gedanke einer zu hart eingestellten Bildkompression und der Wiederverwendung einzelner Bild-Patches scheint so falsch nicht gewesen zu sein. Aus mehreren Zuschriften geht die Mutmaßung hervor, dass in den Geräten für PDF-Scans die JBIG2-Kompression für Bilddaten zum Einsatz kommt. Diese erzeugen ein Wörterbuch an ähnlichen Bild-Kacheln (Patches), die dann nach Bedarf mehrfach verwendet werden, solange der dadurch produzierte Fehler nicht zu groß wird. Ich finde das sehr plausibel.

Das würde auch erklären, warum der Fehler primär auftritt, wenn man Text am Rande der lesbaren Auflösung scannt. Dann liegt man größenmäßig in der Nähe der verwendeten Patches, und ganze Buchstabenblöcke werden sauber ausgeschnitten und vertauscht, so wie oben. Statische Strukturen wie Linien um die Buchstaben sind dann sogar hilfreich, und so kommen dann auch so sauber ausgetauschte Quadratmeterzahlen zustande.

Es sieht nun so aus, als wäre JBIG2 im vorliegenden Fall vom Hersteller zu radikal eingestellt, bzw. eine zu große Patchgröße gewählt. Eine Patchgröße zu wählen, in der ganze, lesbare Zeichen unterbringbar sind, wäre extrem fahrlässig. Es würde auch ein Licht darauf werfen, wie die Geräte getestet worden sind – denn gerade der Einfall, bei Einsatz eines solchen Kompressionsverfahrens schlecht aufgelöste Zeichen auf Abweichungen zu testen, drängt sich eigentlich geradezu auf. Man darf also gespannt sein, wann Xerox sich äußert – auf jeden Fall danke erstmal, dass ihr die Sache so verbreitet, ich finde das sehr nützlich. Macht weiter so! Und ich freue mich in jedem Fall über weitere, hilfreiche Zuschriften.

Update: Kommt grad per Mail rein – Danke, Boris!

Eintrag vom 2013-08-04 von David Kriesel. Tags:

blog/2013/0804_first_assumptions_on_the_xerox_scan_error_cause.txt · Zuletzt geändert: 2013/08/05 12:24 von 127.0.0.1

D. Kriesel

Data, Talks, BBQ, Photos. Not always updated. But sometimes.

Allgemein

Datenkram

Other Stuff

Most popular

Photos

RSS Feeds

Erste Vermutungen zur Ursache der Xerox-Scanfehler