Diesen Sommer haben wir eine Anfrage erhalten für Texterkennung in Dokumenten in Hebräisch und Arabisch – beide gehören zu den Sprachen, die in linksläufiger Schrift geschrieben werden.

Wir erhielten zwei PDF-Dateien, davon war eine das Ergebnis eines Scans, die andere Datei war aus einer Textbearbeitung gespeichert, in dieser waren die Buchstaben markierbar.

Trotz Einsatz verschiedener Profi-Tools konnten wir leider keines der Dokumente in Word aufbereiten:

  • Der Scan war zu schlecht in der Auflösung, sodass schon die Zeichen nicht korrekt erkannt wurden. Auch das Verbessern der Auflösung und des Kontrasts verbesserte das Ergebnis nicht.
  • Die zweite Datei verlor die Laufrichtung: die Zeichen konnten nicht stabil und durchgehend linksläufig dargestellt werden.

Das anfragende Unternehmen (eine renommierte Versicherung)  hat uns nach unseren Tests mitgeteilt, dass sie bereits eigene Tests durchführten und auch bei ihren üblichen Dienstleistern in München kein positives Feedback erhalten konnten.

Wir nehmen an, dass die Ursache mehrschichtig ist, und dass auch das Betriebssystem mit der deutschen Oberfläche sich auf die Zieldokumente auswirkt. Schon schade, dass diese Schriften-Thematik immer noch nicht durchgehend gelöst ist.

 

 

Wir freuen uns, wenn wir Anfragen dieser Art erhalten und halten Sie auf dem Laufenden, wenn sich die Tools verbessern und wir Ergebnisse erzielen.