receipt-ripper.com
Ihre Belege verlassen Ihr Gerät nicht
Die Fotografie ist die unfaire Hälfte der OCR-Genauigkeit. Macht man es richtig, macht der Parser seinen Job. Falsch — und Sie tippen die nächsten zehn Minuten.
OCR von Belegen scheitert aus zwei Gründen. Entweder kann die Engine nicht lesen, was da ist, oder das, was da ist, ist nicht lesbar (ein Foto-Problem, das in zehn Sekunden behebbar ist, wenn man weiß was). Diese Anleitung behandelt Letzteres.
Receipt Ripper wendet automatische Perspektivkorrektur und Skalierung an, bevor das OCR überhaupt läuft. Die Schwelle ist also nicht "Studioqualität" — sondern "die OCR-Engine kann Ziffern eindeutig erkennen".
Die wichtigste Variable ist die Beleuchtung. Ein Thermobeleg hat sehr wenig Kontrast — schwarze Tinte auf weißlichem Papier. Ihre Aufgabe: Es in den einfachen Bereich des Spektrums bringen.
Drinnen am einfachsten: ein Fenster am Tag, Sie zwischen Fenster und Beleg. Helles, gleichmäßiges, diffuses Licht. Keine Spiegelung auf dem Beleg — Reflexionen verbrennen die Tinte und OCR sieht weißes Papier.
Weiß auf Weiß bringt den Kantenerkenner um. Die Scan-Korrektur findet die Papierkanten anhand abrupter Luminanzwechsel. Ein weißer Beleg auf einer weißen Theke hat keinen Wechsel am Rand.
Verwenden Sie eine dunkle, matte Oberfläche. Ein dunkler Holztisch, ein anthrazitfarbenes Platzset, der Einband eines schwarzen Buchs. Glänzende Flächen (Granit, Marmor, Glas) reflektieren und erzeugen einen Halo.
Perspektivkorrektur bewältigt einiges — bis ca. 40° Neigung — aber sie ist nicht gratis. Jeder Korrekturschritt weicht das Bild leicht auf. Die besten Ergebnisse kommen von Fotos, bei denen das Handy ungefähr parallel zum Beleg und über ihm zentriert ist.
Sie wollen den Beleg so groß wie möglich im Bild, ohne dass er die Ränder berührt. So groß wie möglich, weil jedes Pixel zählt. Nicht an die Ränder, weil der Eckenerkenner Nicht-Beleg-Pixel ringsum braucht.
Ein Rand von etwa 10% der langen Achse funktioniert gut.
Frontkameras haben 5-7 MP auf den meisten Geräten; Hauptkameras 12 MP oder mehr. Für OCR ist die zusätzliche Auflösung mehr wert als der Live-View-Komfort.
Nicht den "Live Photos"-Modus von iOS verwenden. Keine Dritt-Dokumentenscanner nutzen, die das Bild in Schwarzweiß binarisieren — sie werfen die Graustufen-Daten weg, die OCR helfen, 8 von 3 zu unterscheiden.
Der Blitz ist Kopf oder Zahl. Bei verblassten Belegen kann er Kontrast wiederherstellen. Bei frischen Belegen überstrahlt er die Schrift und erzeugt einen Hotspot, oft direkt über der Summe.
Faustregel: erst ohne Blitz probieren. Falls verwaschen oder unscharf bei wenig Licht, mit Blitz erneut.
Nach dem Drop in Receipt Ripper zeigt die Prüf-Tabelle jedes Feld mit Konfidenz-Indikator. Gelbe Badges sind die ehrliche Unsicherheit — ein freier Hinweis, dass etwas nicht sauber gelesen wurde.
Ein Beleg liest trotz guter Aufnahme falsch? Senden Sie ihn uns — jeder problematische Beleg bringt dem Parser etwas Neues bei.