Wie kann bei der Übersetzung von abgestempelten oder gescannten Rechtsverträgen (PDF/Bild) die Genauigkeit der OCR-Erkennung sichergestellt werden?
“Bei juristischen Dokumenten ist die Fehlertoleranz äußerst gering, während Falten und Stempel in Scans häufig zu Fehlern bei der Texterkennung führen.”
Ursachenanalyse
Rauschunterdrückung und verbessernde Vorverarbeitung
Vor dem Einsatz von OCR führt das System automatisch eine Binarisierung, Rauschunterdrückung und Ausrichtungskorrektur des Bildes durch, wodurch die Erfolgsquote der Textextraktion aus alten oder gefaxten Dokumenten erheblich gesteigert wird.
Trennung von Stempel und Text
KI-gestützte Bildverarbeitungsmodelle sind speziell darauf trainiert, rote Stempelaufdrucke von den darunterliegenden schwarzen Texten zu unterscheiden und verdeckte Schlüsselklauseln nach Möglichkeit originalgetreu wiederherzustellen.
Vertrauenswürdigkeitskennzeichnung
Im zweisprachigen Vergleichsmodus bewahrt das System bei OCR-erkannten, schwer lesbaren Zeichen mit niedriger Vertrauenswürdigkeit einen Ausschnitt des Originalbildes zur manuellen Überprüfung auf, um rechtliche Risiken zu vermeiden.
Zusammenfassung der finalen Lösung
Durch die Kombination von erweitertem OCR mit professionellen juristischen Übersetzungsmodellen wird Rechtsanwältinnen und Rechtsanwälten eine verlässliche Unterstützung für den Erstentwurf geboten.