AutoOCR

Zuletzt geändert von Wolfgang May am 2021/02/03 18:21

AutoOCR ist ein OCR Prozessor der vordefinierte Ordner überwacht und sowohl neu hinzukommende als auch geänderte Image und PDF Dokumente automatisiert in per Volltext durchsuchbare PDF bzw. PDF/A Dokumente umwandelt.

Installation / Update

Installation - Voraussetzungen

Bei der AutoOCR Installation ab der Version 1.15.3 werden geänderte Installationsvoraussetzungen geprüft. Sind sie erfüllt, so werden diese Installationsschritte vom Setup übersprungen und nicht ausgeführt.

Folgende Komponenten werden geprüft und gegebenenfalls nachinstalliert:

  • C++ 2010 Runtime 64bit
  • C++ 2010 Runtime 32bit
  • iOCR Basis - wird jetzt als vsOCR nach "C:\Program Files (x86)\Common Files\MAYComputer\vsOCR" installiert

Sind diese Komponenten bereits installiert, so werden sie nicht nachgeladen und nur AutoOCR wird installiert. Sind alle oder einzelne Komponenten nicht oder nicht in der passenden Version vorhanden, so versucht das AutoOCR Setup diese von unserem FTP Server nachzuladen und zu installieren. D.h. falls eine Installation ohne Internetverbindung gemacht werden soll, so sollten die Setups dieser Komponenten vorher heruntergeladen und installiert werden.

Die AutoOCR Einstellungen und die Lizenz bleiben bei der Deinstallation / Update auf die neue Version erhalten.

Update

Bei einem Update auf eine neue Version ist folgender Ablauf einzuhalten:

  • AutoOCR Verarbeitung anhalten und Dienst stoppen
  • AutoOCR Anwendung (Benutzer Interface) beenden
  • AutoOCR deinstallieren
  • Neue AutoOCR Version installieren
  • AutoOCR Dienst neu konfigurieren (User/Domain/Passwort)
  • AutoOCR Dienst starten

Abgesehen von dem konfigurierten Benutzer unter dem der Dienst läuft bleiben alle Einstellungen erhalten.

Konfiguration

Eingangs-Ordner

Verarbeiten von Eingangsordnern/Strukturen

Dabei wird ein Eingangsordner bzw. eine ganze Ordnerstruktur verarbeitet. Die erzeugten PDF Dateien werden in der gleichen Ordnerstruktur mit den gleichen Namen wie die Ursprungsdatei abgelegt. Ein Spezialfall sind jedoch PDF Dateien, da es PDF Dateien gibt, die keine OCR Verarbeitung benötigen und andere, die eine solche erfordern. Es kann auch vorkommen, dass nur bestimmte Seiten einer PDF Datei eine OCR Verarbeitung benötigen.

Um die PDF Dateien nicht nochmals zu verarbeiten werden die von AutoOCR bereits verarbeiteten Dateien in der Datenstruktur durch ein "Label" gekennzeichnet.

Beim Start des AutoOCR Dienstes wird die Ordnerstruktur komplett gescannt um noch nicht verarbeitete Dateien zu identifizieren. Dabei muss jede PDF Datei auf dieses "Label" hin überprüft werden. Zu beachten ist, dass bei umfangreichen Datenbeständen dieser Vorgang entsprechend lange dauert, da jede PDF Datei geöffnet und überprüft werden muss.

Datum/Zeit der Ursprungsdatei erhalten

Mit dieser Option kann das Datum und die Uhrzeit der Erstellung, der Änderung und des Letzten Zugriffs von der Ursprungsdatei auf die durch den OCR Vorgang erzeugten PDF Datei übertragen werden. Das PDF Dokument wird somit ohne Änderung dieser Attribute ersetzt.

Leere Seiten löschen

Es gibt eine Option um vor der OCR Verarbeitung leere Seiten zu löschen. Die Erkennung einer Seite als "leer" erfolgt über einen eingestellten Schwellwert. Der voreingestellte Standardwert beträgt 1%. Einse Seite wird in dem Fall als "leer" erkannt, falls weniger als 1% der Pixel einer Seite "nicht weiß" sind. Dieser Wert muss gegebenenfalls an die zu verarbeitenden Scans angepasst werden, da es bei Scans mit Verunreinigungen auch sein kann, dass eine leere Seite mehr Pixel aufweist und dann nicht als leer erkannt wird. Wird der Schwellwert jedoch zu hoch eingestellt, so kann es sein, dass Seiten mit wenig Inhalt als leer erkannt und damit gelöscht werden.

Einstellungen

Service Account konfigurieren

Nach der Installation läuft der AutoOCR Dienst standardmößig als "Lokaler System Account". Müssen Dateien und Ordner von Netzwerk-Shares verarbeitet werden, so muss ein "User Account" angelegt und für den AutoOCR Dienst verwendet werden, der auch über die entsprechenden Rechte verfügt um auf die verwendeten Netzwerk-Shares zugreifen zu dürfen.

Was ist bei Zugriff auf Netzwerk-Ressourcen zu beachten?

  • Der Dienst der auf Netzwerk Ressourcen Zugriff haben soll muss unter einem User Account laufen und nicht als System Account.
  • Der User unter dem der Dienst läuft muss über die entsprechenden Rechte (Lesen / Schreiben / Löschen) auf die Netzwerk Ressourcen verfügen.
  • Für den Zugriff auf die Netzwerk Ressourcen (Eingangs-, Ausgangs-, Fehler-, Archiv-, Log-Ordner) darf kein gemapptes Laufwerk verwendet werden, sondern es muss der direkte Netzwerk Share (UNC Pfad) verwendet werden.
  • Die Verarbeitungsoption für die Ordnerüberwachung muss von "Datei System Events" auf "Blockweise Verarbeitung" umgestellt werden.

Verarbeitungsoptionen

Ordnerüberwachung

Bei Anwendungen zur Überwachung von Ordnern (z.B.: AutoOCR, AutoOCRLight) gibt es Optionen die festlegen wie die Dateien zur Verarbeitung aus den Ordnern erkannt werden und wann deren Verarbeitung gestartet wird.

Datei-System Events:

Dabei wird eine Betriebssystem Funktion genutzt um Änderungen an Dateien sowie neue Dateien in einem Ordner/Ordnerstruktur zu erkennen und um die Verarbeitung unmittelbar zu starten. Diese Option sollte nur für lokale Ordner/Ordnerstrukturen, nicht jedoch für die Verarbeitung von Netzwerkfreigaben verwendet werden.

Blockweise Verarbeitung:

Dabei wird der Ordner "blockweise" eingelesen, d.h. es werden immer Blöcke in der eingestellten max. Anzahl von Dateien eingelesen und verarbeitet. Nach der Verarbeitung eines "Blocks" startet der nächste "Block" usw. bis alle Dateien abgearbeitet sind. Falls keine weiteren Dateien gefunden werden, so wird der Ordner danach alle 10msek. nach neuen Dateien abgefragt. Die "Blockweise Verarbeitung" sollte für die Ordnerüberwachung von Netzwerklaufwerken verwendet werden.

Start der Verarbeitung / Verzögerter Start:

Der Start der Verarbeitung einer neu erkannten Datei erfolgt normalerweise sofort, jedoch kann es auch Gründe geben um die Verarbeitung verzögert zu starten. Für jeden überwachten Ordner gibt es eine Einstellung um den Start der Verarbeitung um x Sekunden zu verzögern. Dabei wird zuerst die eingestellte Zeit in Sekunden abgewartet und erst dann wird die Verarbeitung gestartet. Nach Ablauf der Verzögerung werden die zu verarbeitenden Dateien geprüft ob diese bereits frei und nicht Read-Only sind. Dabei wird nochmals max. 10sek auf die Freigabe der Datei gewartet.

Web-Service

Um die Web-Service FUnktion für AutoOCR nutzen zu können ist eine zusätzliche Lizenz erforderlich.

Web-Service allgemeine Funktionen:

  • HTTP und abgesicherte HTTPS Kommunikation über Port 8001 und 8002 (konfigurierbar).
  • SOAP sowie REST Endpunkte für die Konvertier- sowie Administrator-Funktionen.
  • HTTP-, HTTPS-Verarbeitungs- sowie Administrator-Web-Service kann einzeln aktiviert und deaktiviert werden.
  • Authentifikation über HTTPS mit eigener Benutzerverwaltung über Username und Passwort.
  • Neben den Dateierweiterungen kann auch mit dem MIME Typ der Ein- und Ausgabe-Dateien gearbeitet werden.
  • Versionsinfo des Servers sowie der verwendete Lizenz Hash Wert kann abgefragt werden.
Copyright 2023 © May Computer GmbH - All rights reserved! office@xkey.at