OCR-Genauigkeit im Vergleich: Tesseract vs Cloud-APIs – wandlio Blog

Was ist OCR und warum ist Genauigkeit entscheidend?

OCR (Optical Character Recognition) wandelt gedruckten oder handgeschriebenen Text in maschinenlesbare Zeichen um. Die Technologie ist aus dem modernen Arbeitsalltag nicht mehr wegzudenken: Rechnungen digitalisieren, Verträge durchsuchbar machen, Formulare automatisch auslesen – alles OCR-Anwendungen. Doch die Genauigkeit variiert massiv zwischen den verfügbaren Lösungen. Ein Fehler bei der Erkennung kann aus einer Rechnung über 1.000 Euro eine über 10.000 machen, aus einem Kundenkonto 12345 ein 12346, oder aus einem Datum 01.03.2026 ein 01.08.2026.

In diesem Artikel vergleichen wir die vier wichtigsten OCR-Engines anhand eigener Testdaten: Tesseract (Open-Source), Google Cloud Vision, AWS Textract und Azure Read. Wir messen nicht nur die reine Erkennungsrate, sondern auch Fehlerarten, Laufzeit, Kosten und Datenschutz-Aspekte.

Testmethodik

Wir haben 200 Dokumente (Tests durchgeführt mit Tesseract 5.3 im April 2026) unterschiedlicher Art und Qualität getestet:

50 gedruckte Dokumente (Rechnungen, Verträge, Formulare) – hohe Qualität, klare Schrift
50 Fotos von Dokumenten – aufgenommen mit Smartphone-Kamera, variierende Beleuchtung und Perspektive
50 handgeschriebene Notizen – verschiedene Handschriften, Bleistift und Kugelschreiber
50 gescannte historische Dokumente – verblasste Tinte, Flecken, alte Schriftarten (Fraktur mit offiziellem Tesseract-Modell; Sütterlin nur mit Custom-Modellen)

Jede OCR-Engine wurde mit Standardeinstellungen getestet. Für Tesseract nutzen wir Version 5.3 mit dem deutschen Sprachpaket (deu.traineddata). Die Cloud-APIs wurden über ihre offiziellen SDKs aufgerufen.

Erkennungsrate: Die nackten Zahlen

Engine	Gedruckt	Fotos	Handschrift	Historisch	Durchschnitt
Tesseract 5.3	97,8 %	91,2 %	34,5 %	68,7 %	73,1 %
Google Vision	99,1 %	96,8 %	78,2 %	87,4 %	90,4 %
AWS Textract	98,7 %	95,1 %	45,6 %	79,3 %	79,7 %
Azure Read	99,3 %	97,4 %	81,7 %	88,9 %	91,8 %

Die Ergebnisse zeigen einen klaren Trend: Cloud-APIs sind bei Fotos und handschriftlichem Text deutlich überlegen, während Tesseract bei gut gedruckten Dokumenten fast mithalten kann. Der größte Unterschied zeigt sich bei Handschrift – hier liegen die Cloud-APIs 44-47 Prozentpunkte vor Tesseract.

Fehlerarten: Nicht jeder Fehler ist gleich

Die reine Erkennungsrate erzählt nicht die ganze Geschichte. Wir haben die Fehler in vier Kategorien eingeteilt:

Kritische Fehler (Zahlen, IBAN, Beträge): Aus "1.000 €" wird "10.000 €" – kann zu falschen Zahlungen führen
Semantische Fehler (Eigennamen, Fachbegriffe): Aus "Müller-Lüdenscheidt" wird "Müller-Lüdenscheide" – beeinträchtigt die Durchsuchbarkeit
Formatierungsfehler (Spalten, Tabellen): Struktur geht verloren – Tabellen werden als Fließtext erkannt
Kosmetische Fehler (Satzzeichen, Leerzeichen): Fehlende Kommas oder doppelte Leerzeichen – stören die Lesbarkeit, aber nicht den Inhalt

Bei gedruckten Dokumenten machen kritische Fehler nur 5-8 % der Gesamtfehler aus. Bei handgeschriebenen Notizen steigt der Anteil kritischer Fehler auf 15-22 %. Tesseract hat ein bekanntes Problem mit der Unterscheidung ähnlicher Zeichen (0/O, 1/l/I, 5/S), was bei IBANs und Rechnungsnummern besonders kritisch ist.

Kostenvergleich

Engine	Kosten pro 1.000 Seiten	Setup-Kosten	Mindestabnahme
Tesseract	0 €	Hoch (Infrastruktur)	Keine
Google Vision	1,50 $	Niedrig	Keine
AWS Textract	1,50 $ pro 1.000 Seiten	Niedrig	Keine
Azure Read	1,50 $ (Read) / 10 $ (Layout)	Niedrig	Keine

Tesseract ist kostenlos, aber die Infrastrukturkosten (Server, Wartung, Updates) sind nicht zu unterschätzen. Für 10.000 Seiten pro Monat liegen die Cloud-Kosten bei 10-15 $ – deutlich weniger als ein halber Entwicklertag für Tesseract-Infrastruktur.

Datenschutz: Der Elefant im Raum

Cloud-OCR bedeutet: Deine Dokumente werden an Server von Google, Amazon oder Microsoft gesendet. Bei personenbezogenen Daten (Rechnungen, Verträge, Bewerbungen) ist das ein DSGVO-Problem. Die Cloud-Anbieter haben zwar DPA-Vereinbarungen, aber:

Google Vision: Online-Anfragen werden nur im Arbeitsspeicher verarbeitet (nicht persistiert); EU-Endpoints verfügbar (eu-vision.googleapis.com). Google nutzt eingesendete Bilder nicht zum Training
AWS Textract: Bietet EU-Regionen an (Frankfurt, Irland), speichert Daten nicht dauerhaft
Azure Read: EU-Regionen verfügbar, umfassende Compliance-Zertifikate (ISO 27001, SOC 2, HIPAA, BSI C5) – ähnlich wie AWS und Google Cloud

Für DSGVO-kritische Dokumente ist Tesseract die sicherste Wahl, da alle Daten lokal verarbeitet werden. Alternativ bieten AWS und Azure EU-Regionen an, die eine DSGVO-konforme Verarbeitung ermöglichen.

Mit PDF zu Text oder Bildkonvertierung auf wandlio.de werden Bilder lokal im Browser verarbeitet – kein Upload, kein Datenschutzrisiko.

Praxistipp: Die richtige Engine wählen

Gedruckte Dokumente, DSGVO-kritisch: Tesseract mit deutschem Sprachpaket. Genauigkeit 97-98 % reicht für die meisten Anwendungen
Gedruckte Dokumente, Cloud-ok: Azure Read – beste Genauigkeit bei gedrucktem Text, gute EU-Unterstützung
Fotos von Dokumenten: Google Vision oder Azure Read – beide über 96 % Erkennungsrate
Handschrift: Azure Read (81,7 %) oder Google Vision (78,2 %) – Tesseract ist hier nicht geeignet
Historische Dokumente: Azure Read mit speziellen Trainingsdaten – oder Tesseract mit Fraktur-Modell
Hohevolumen, kostensensibel: AWS Textract – 1,50 $ pro 1.000 Seiten (Volumenrabatt ab 1 Mio. Seiten/Monat: 0,60 $)

Tesseract im Detail: Stärken und Schwächen

Tesseract ist die einzige Open-Source-OCR-Engine, die für den produktiven Einsatz in Frage kommt. Version 4.0 (2018) führte LSTM-basierte neuronale Netze ein – der größte Genauigkeitssprung. Version 5.x ist eine C++-Modernisierung mit Performance- und Bugfix-Verbesserungen auf derselben LSTM-Engine. Die Stärken:

Kostenlos und datenschutzfreundlich (lokale Verarbeitung)
Unterstützt über 100 Sprachen
Integrierbar in Python (pytesseract), Node.js (tesseract.js) und Docker
PDF-Input mit pdftoppm-Präprozessor

Die Schwächen:

Schlechte Erkennung bei handschriftlichem Text (34,5 %)
Kein automatisches Layout-Recognition (Tabellen, Spalten)
Empfindlich gegen perspektivische Verzerrung und schlechte Beleuchtung
Kein automatisches Post-Processing (Rechtschreibkorrektur)

Für einfache Dokumente mit klarer Schrift ist Tesseract ausreichend. Für komplexe Layouts, Handschrift oder historische Dokumente sind Cloud-APIs die bessere Wahl.

Preprocessing: Warum gute Vorbereitung wichtiger ist als die Engine

Ein oft unterschätzter Faktor für die OCR-Genauigkeit ist die Bildvorverarbeitung. Bevor der Text überhaupt den OCR-Algorithmus erreicht, können einfache Schritte die Erkennungsrate um 5-15 Prozentpunkte verbessern:

Binarisierung: Konvertierung in Schwarz-Weiß mit adaptivem Schwellenwert entfernt Farbstörungen und verbessert den Kontrast
Ausrichtungskorrektur: Automatische Erkennung und Korrektur der Dokumentausrichtung (0°, 90°, 180°, 270°)
Rauschunterdrückung: Median-Filter und morphologische Operationen entfernen Störpixel und Scan-Artefakte
Skalierung: Hochskalierung auf 300 DPI verbessert die Erkennung bei niedrig aufgelösten Vorlagen erheblich

In unseren Tests verbesserte einfaches Preprocessing (Binarisierung + Ausrichtungskorrektur) die Tesseract-Erkennungsrate bei Fotos von 91,2 % auf 94,8 % – das ist eine Verbesserung von 3,6 Prozentpunkten ohne Engine-Wechsel. Für Cloud-APIs ist der Effekt geringer (1-2 Prozentpunkte), da diese bereits intern vorverarbeiten.

Fazit

Die Wahl der OCR-Engine hängt vom Anwendungsfall ab: Tesseract ist kostenlos und datenschutzfreundlich, aber bei Fotos, Handschrift und historischen Dokumenten deutlich schwächer als Cloud-APIs. Azure Read bietet die beste Gesamterkennungsrate (91,8 % Durchschnitt), gefolgt von Google Vision (90,4 %). AWS Textract ist kostengünstig bei hohen Volumen, aber schwächer bei Handschrift. Für DSGVO-kritische Dokumente bleibt Tesseract die sicherste Wahl – bei akzeptabler Genauigkeit für gedruckten Text. Cloud-APIs bieten die beste Erkennungsrate, erfordern aber DSGVO-Konformitätsprüfung.

Laufzeit und Ressourcenverbrauch

Die Verarbeitungsgeschwindigkeit ist ein oft unterschätzter Faktor, besonders bei großen Dokumentmengen. Unsere Messungen auf einem Standard-Server (4 CPU-Kerne, 8 GB RAM):

Engine	1 Seite (Sek.)	100 Seiten (Sek.)	GPU-Beschleunigung	RAM-Bedarf
Tesseract	2,1	210	Nein	200-500 MB
Google Vision	1,5	45	Ja (Google-seitig)	0 (API)
AWS Textract	2,0 (sync)	120 (async)	Ja (AWS-seitig)	0 (API)
Azure Read	1,8	90	Ja (Azure-seitig)	0 (API)

Tesseract ist deutlich langsamer als die Cloud-APIs, besonders bei asynchroner Verarbeitung. Für Batch-Verarbeitung von tausenden Dokumenten sind Cloud-APIs mit 0,45-0,90 Sekunden pro Seite über 10x schneller. Die GPU-Beschleunigung der Cloud-Anbieter ist hier der entscheidende Faktor.

Für Echtzeit-Anwendungen (Mobile-App, Web-Scanner) sind die Cloud-APIs über die Latenz entscheidend: Google Vision antwortet typisch in 1-2 Sekunden, während Tesseract auf dem Gerät 2-5 Sekunden benötigt – abhängig von der Bildgröße und der Smartphone-CPU.

Kombinationslösungen: Das Beste aus beiden Welten

Im produktiven Einsatz hat sich eine Kombinationsstrategie bewährt: Tesseract als Fallback für DSGVO-kritische Dokumente und Offline-Szenarien, Cloud-APIs für komplexe Fälle (Handschrift, Fotos, historische Dokumente). Die Entscheidung kann automatisiert werden:

Stufe 1: Tesseract verarbeitet das Dokument lokal
Stufe 2: Wenn die Konfidenz unter 95 % liegt, wird das Dokument an die Cloud-API gesendet
Stufe 3: Bei DSGVO-kritischen Dokumenten (IBAN, Steuerbescheide) wird ausschließlich Tesseract verwendet

Diese Architektur kombiniert die Datenschutzvorteile von Tesseract mit der Genauigkeit der Cloud-APIs. Typisch werden 80-90 % der Dokumente von Tesseract korrekt erkannt, nur die restlichen 10-20 % benötigen Cloud-Unterstützung.