Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung? - Anwendungssoftware

4. Januar 201115 j

Hallo,

ich habe aktuell einen Kunden, der sich einen neuen Scanner zugelegt hat, und fleißig seine Rechnungen und Dokumente in PDFs scant.

Problem ist, dass das Scanprogramm/der Scanner/wasauchimmer keine OCR über das PDF laufen lässt, man also somit auch nicht "in Dokumenten" nach Text suchen kann.

Das wäre natürlich nett, wenn man eine Rechnung sucht, aber zB nur den Artikel oder das Gerät kennt.

Bevor ich mich an all diesen Namenhaften (und teuren) Softwares vergehen:

Ich suche ein OCR-Programm, das:

- Anhand von bestehenden PDFs ein OCR durchführen kann.

- Als Output wieder direkt PDFs erstellt, bzw. die bestehende Datei überschreibt

- Und das am besten automatisch macht - ggf. per Batchscript (checke alle PDFs in Ordner X und erstelle OCR-Versionen) oder per Watchdog im Hintergrund (wenn sich in Ordner X ein neues PDF befindet, mach OCR+PDF)

Gewünscht ist, das der Kunde eben ohne viel Aufwand und am besten automatisch OCR-Versionen von seinen PDFs erhält, und somit in diesen auch Suchen kann.

Kann sowas mit zB ABBYY FineReader bewerkstelligt werden? Oder gibts da für genau diesen Zweck ordentliche Dokumentenverwaltungs-Softwares?

5. Januar 201115 j

Hallo Neo,

für diesen Zweck gibt es diese

Namenhafte (und teure) Software

ELO, gibt es in verschiedenen Versionen, besorg dir eine Testversion, und schau ob das damit so zu bewerkstelligen ist, wie du es dir vorstellst.

Du könntest natürlich z.B. auch bei heise.de unter Download->Office->Dokumentenmangement nachschauen, was es noch so gibt.

Grüße

Connor

24. Februar 201115 j

Ich bin (evtl.) auf der Suche nach etwas ähnlichem. Ich habe auch zahlreiche Scans von Dokumenten aller Art erstellt (als PDF), leider sind diese jetzt nicht durchsuchbar. Eine großangelegte OCR-Erkennung wollte ich nicht machen, eher folgendes:

Das Blatt wird normal gescannt und auch als pdf (oder ein anderes Format was später weiterverarbeitet wird) gespeichert. Eine OCR-Software versucht soviel Text zu erkennen wie geht (was nicht oder falsch erkannt wird ist halt nicht oder falsch gespeichert) und speichert diese erkannten Worte als eine Art "Hintergrunddatei" zur PDF.

So könnte man zumindest (wenn korrekt erkannt) die korrekte Seite mit dem Suchbegriff ermitteln.

25. Februar 201115 j

Hallo occi,

was heißt denn für dich

normal gescannt und auch als pdf gespeichert

? Wenn ich ein Dokument scanne, lege ich es immer als PDF ab (und lasse gleichzeitig OCR drüberlaufen). Außer es ist ein/e Foto/Bild/Grafik. Im ELO wird normalerweise mit TIFF gearbeitet.

Die vorhandenen Dokumente nochmal einzuscannen halte ich für überflüssigen Aufwand. Schau dir estmal div. Programme an, wie die arbeiten.

Grüße

25. Februar 201115 j

Das Wörtchen "auch" passte da nicht rein. Ich scanne die Dokumente und speichere diese als pdf - fertig.

Wenn du ein OCR drüber laufen lässt, erstellt er ja eine pdf nur aus den erkannten Texten. Das geht aber nur bedingt, wenn man viele Grafiken mit auf den Seiten hat, ich habe dazu diverse OCR-Programme versucht, keines hat brauchbare Ergebnisse geliefert. Aus diesem Grund wollte ich das gescannte Dokument so behalten wie es ist und nur wie oben beschrieben scannen lassen.

25. Februar 201115 j

Das kommt drauf an, wie das Programm das handhabt, bzw. wie es sich einstellen lässt. Z.B Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Übrigens: falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Grüße

26. Februar 201115 j

falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Da ist eine OmniPage-Version dabei, die kann aber nur reine Textversionen erstellen, hatte ich schon versucht. Andere OCR-Programme auch.

Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

---

Ich habe mir nochmal den Acrobat X genau angesehen, da gibt es entsprechende Punkt von wegen eingebettetes OCR, aber nichts wo man irgendeine Texterkennugn starten kann. Muss das evtl. ein anderes Programm machen und Acrobat übernimmt die Erkennung dann?

1. März 201115 j

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

Schau Dir mal das an:

spamlink entfernt

Die Bilddaten werden einfach in ein überwachtes Verzeichnis geschoben und von dort automatisch erfasst, bestimmt kann man dann auch ein PDF daraus erstellen lassen.

Bearbeitet 1. März 201115 j von Chief Wiggum

Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung?

Empfohlene Antworten

Archiv

Konto

Navigation

Suchen

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)