ELWA Digital Office: NUANCE

VON Dr. Wolf SiegertZUM Montag Letzte Bearbeitung: 19. Januar 2015 um 12 Uhr 37 Minuten

 

Bereits im Sommer diesen Jahres hatten wir in einem ersten Versuch das OCR-Software-Programm aus dem Hause NUANCE zum Einsatz gebracht und die Ergebnisse dokumentiert [1]

Jetzt wird es ernst. Nach den ersten Versuchen mit der ELO Digital Office Software wird in einem weiteren Versuch nochmals die aktuelle Omnipage Version auf einem 64 Bit Windows 7 Rechner eingespielt.

Der sich daraus ergebende Vorgang wird hier im Detail dokumentiert.
Und das mit der ganz klaren Ansage, dass eine Bewältigung der hier anstehenden Aufgaben durch einen nicht geschulten und in solchen Sachen vorgebildeten Nutzer kaum möglich sein wird.

Für die Bewältigung der hier anstehenden Aufgaben wurde am Sonntag ein Zwei-Mann-Team ausgesucht, das sich intensiv mit den Angeboten und Un-Möglichkeiten der Software auseinandersetzt.

Am Anfang war ... die Twain-Erkennung

Es gelten die Regeln des Urheberrechts all rights reserved

Und der Nutzer sah, dass es gut war.

Es gelten die Regeln des Urheberrechts all rights reserved

Und NUANCE sah, dass der Scanner da und ihm bekannt war.

Es gelten die Regeln des Urheberrechts all rights reserved
Es gelten die Regeln des Urheberrechts all rights reserved

Ab hier ging es immer im Kreis weiter

Es gelten die Regeln des Urheberrechts all rights reserved

Nuance erhält immer eine Fehlermeldung vom Scanner, sogar wenn erfolgreich gescannt wurde, und weigert sich folglich, den benutzerdefinierten Modus zu aktivieren.

Es gelten die Regeln des Urheberrechts all rights reserved

Vorher war bereits der direkte Scanmodus ausgegraut, da trotz Herunterladens der aktuellen Snannerdefinition von der Nuance Website keine richtige Kommunikation mit dem Gerät zustande kam.

Dann wurde versucht, den Konfigurationsdialog aus Omnipage selber heraus zu starten:

Es gelten die Regeln des Urheberrechts all rights reserved

Warum?

Trotzdem leistet Omnipage gute Dienste: Wir scannen nun mit dem Avision Capture Tool und importieren die TIFF-Dateien nach Omnipage.
Durch die Aufteilung des Jobs in diese zwei Programme / Dienste ist der Ablauf der Prozedur recht sicher und schnell.

Als bislang grösstes File wurde ein Dossier mit 380 Textseiten [2] in Portionen von je 40 - 60 Seiten eingescannt. Der gesamte Erfassungsprozess war nach weniger als 20 Minuten abgeschlossen. Die nachgelagerte Texterkennungsphase dauerte ca. 1/4 Stunde. Die diesem Prozess wiederum nachgelagerte Bearbeitungsphase für die Erstellung von einem Word- bzw. PDF-Dokument war nach jeweils wenigen weiteren Minuten abgeschlossen.

Das so erstellte Dokument umfasst 546 MB an TIFF-Dateien, das gesamte als Volltext durchsuchbare PDF-Dokument ist knapp 3 MB gross. Die dabei generierte Word 2000 - Datei umfasste gut 32 MB. Nach dem Öffnen und nochmaligen Speichern war die neue "*.doc"-Datei nur noch die Hälfte so gross.

Eine ebenfalls grosse Herausforderung war das Einscannen und Auslesen von Mailinglisten - zum Beispiel in ein Excel-Format. Es bedurfte einer Reihe von Versuchen um zu erfahren, wie und warum das funktionieren könnte - und warum nicht: Tödlich ist solche Art von Tabellen, in denen nicht zu Beginn alle Spalten auch entsprechend benannt und ausgefüllt sind. Liegen diese als Referenzzeilen nicht vor, kommt danach fast nur unbrauchbares Zeug heraus. Die so erfassten Daten werden als "Overview" zwar im Anhang noch dargestellt, sind aber nicht wirklich verwendbar. Beschneidet man hingehen die TIFF-Ausgangsdateien entsprechend, sind die Ergebnisse grundsätzlich als gut zu bezeichnen.

Nicht geklappt hat der erste Versuch der Erstellung einer originären Nuance-Datei im sogenannten "*.opd"-Formant. Dieses Dokument wuchs im Verlauf des Scans auf über 2 Gigabyte an und verabschiedete sich dann qua Absturz. Dieser Versuch wurde später wiederholt, das negative Ergebnis war - leider - reproduzierbar. [3]

Ebenfalls nicht geklappt hat der Versuch einer mehrsprachigen OCR-Erkennung der TIFF-Dokumente. Standardgemäss waren die Sprachen Deutsch, Englisch und Französich eingestellt. Allein, ein französicher Text wird als solcher nicht erkannt, das Ergebnis sieht dann so aus:

Es gelten die Regeln des Urheberrechts all rights reserved

Aber es kommt noch schlimmer, selbst der Versuch, die so aufgerufene Datei wieder abzuspeichern, endet in mit einem Stillstand des gesamten Systems. Unser Admin erlaubt es sich sogar, von einem "Anfängerfehler" zu sprechen, nachdem er entdeckt hat, dass ein im Hintergrund aufgetauchtes Funktions-Fenster den weiteren Ablauf blockiert, vom Nutzer aber nicht wahrgenommen werden kann. Gefunden wurde dieses erst, nachdem versucht wurde, den Task-Manager zu Hilfe zu nehmen, um Omnipage auf diese Weise zu beenden.

Es gelten die Regeln des Urheberrechts all rights reserved

Aber es gibt Abhilfe - die Lösung lautet wie folgt: mit der Einrichtung des Systems ist es notwendig, bei der ersten Verwendung die ausgesuchten Standardsprachen in einem eigenen Profil anlegen und als solche speichern. Dieses wird dann beim nächsten Neustart auf- und abgerufen und sorgt so für gute Ergebnisse:

Es gelten die Regeln des Urheberrechts all rights reserved

Anmerkungen

[1Siehe unter: Omnipage 18 pro.

[2davon von 1 Titelseite, zwei Seiten Inhalt und eine Leerseite als Trennseite

[3Dabei können Hinweise auf einen zu schmalbrüstigen Rechner oder eine zu dünne Platte unterbleiben ;-)
Hier ein Screenshot mit einem Auszug aus den Fehlermeldungen anbei:

Es gelten die Regeln des Urheberrechts all rights reserved

 An dieser Stelle wird der Text von 5718 Zeichen mit folgender VG Wort Zählmarke erfasst:
d7987ab2d04c73d40978e21c333dd4