Zum Inhalt springen
View in the app

A better way to browse. Learn more.

Fachinformatiker.de

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS
  1. Tap the Share icon in Safari
  2. Scroll the menu and tap Add to Home Screen.
  3. Tap Add in the top-right corner.
To install this app on Android
  1. Tap the 3-dot menu (⋮) in the top-right corner of the browser.
  2. Tap Add to Home screen or Install app.
  3. Confirm by tapping Install.

Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung?

Empfohlene Antworten

Veröffentlicht

Hallo,

ich habe aktuell einen Kunden, der sich einen neuen Scanner zugelegt hat, und fleißig seine Rechnungen und Dokumente in PDFs scant.

Problem ist, dass das Scanprogramm/der Scanner/wasauchimmer keine OCR über das PDF laufen lässt, man also somit auch nicht "in Dokumenten" nach Text suchen kann.

Das wäre natürlich nett, wenn man eine Rechnung sucht, aber zB nur den Artikel oder das Gerät kennt.

Bevor ich mich an all diesen Namenhaften (und teuren) Softwares vergehen:

Ich suche ein OCR-Programm, das:

- Anhand von bestehenden PDFs ein OCR durchführen kann.

- Als Output wieder direkt PDFs erstellt, bzw. die bestehende Datei überschreibt

- Und das am besten automatisch macht - ggf. per Batchscript (checke alle PDFs in Ordner X und erstelle OCR-Versionen) oder per Watchdog im Hintergrund (wenn sich in Ordner X ein neues PDF befindet, mach OCR+PDF)

Gewünscht ist, das der Kunde eben ohne viel Aufwand und am besten automatisch OCR-Versionen von seinen PDFs erhält, und somit in diesen auch Suchen kann.

Kann sowas mit zB ABBYY FineReader bewerkstelligt werden? Oder gibts da für genau diesen Zweck ordentliche Dokumentenverwaltungs-Softwares?

Hallo Neo,

für diesen Zweck gibt es diese

Namenhafte (und teure) Software
ELO, gibt es in verschiedenen Versionen, besorg dir eine Testversion, und schau ob das damit so zu bewerkstelligen ist, wie du es dir vorstellst.

Du könntest natürlich z.B. auch bei heise.de unter Download->Office->Dokumentenmangement nachschauen, was es noch so gibt.

Grüße

Connor

  • 1 Monat später...

Ich bin (evtl.) auf der Suche nach etwas ähnlichem. Ich habe auch zahlreiche Scans von Dokumenten aller Art erstellt (als PDF), leider sind diese jetzt nicht durchsuchbar. Eine großangelegte OCR-Erkennung wollte ich nicht machen, eher folgendes:

Das Blatt wird normal gescannt und auch als pdf (oder ein anderes Format was später weiterverarbeitet wird) gespeichert. Eine OCR-Software versucht soviel Text zu erkennen wie geht (was nicht oder falsch erkannt wird ist halt nicht oder falsch gespeichert) und speichert diese erkannten Worte als eine Art "Hintergrunddatei" zur PDF.

So könnte man zumindest (wenn korrekt erkannt) die korrekte Seite mit dem Suchbegriff ermitteln.

Hallo occi,

was heißt denn für dich

normal gescannt und auch als pdf gespeichert
? Wenn ich ein Dokument scanne, lege ich es immer als PDF ab (und lasse gleichzeitig OCR drüberlaufen). Außer es ist ein/e Foto/Bild/Grafik. Im ELO wird normalerweise mit TIFF gearbeitet.

Die vorhandenen Dokumente nochmal einzuscannen halte ich für überflüssigen Aufwand. Schau dir estmal div. Programme an, wie die arbeiten.

Grüße

Das Wörtchen "auch" passte da nicht rein. Ich scanne die Dokumente und speichere diese als pdf - fertig.

Wenn du ein OCR drüber laufen lässt, erstellt er ja eine pdf nur aus den erkannten Texten. Das geht aber nur bedingt, wenn man viele Grafiken mit auf den Seiten hat, ich habe dazu diverse OCR-Programme versucht, keines hat brauchbare Ergebnisse geliefert. Aus diesem Grund wollte ich das gescannte Dokument so behalten wie es ist und nur wie oben beschrieben scannen lassen.

Das kommt drauf an, wie das Programm das handhabt, bzw. wie es sich einstellen lässt. Z.B Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Übrigens: falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Grüße

falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Da ist eine OmniPage-Version dabei, die kann aber nur reine Textversionen erstellen, hatte ich schon versucht. Andere OCR-Programme auch.

Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

---

Ich habe mir nochmal den Acrobat X genau angesehen, da gibt es entsprechende Punkt von wegen eingebettetes OCR, aber nichts wo man irgendeine Texterkennugn starten kann. Muss das evtl. ein anderes Programm machen und Acrobat übernimmt die Erkennung dann?

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

Schau Dir mal das an:

spamlink entfernt

Die Bilddaten werden einfach in ein überwachtes Verzeichnis geschoben und von dort automatisch erfasst, bestimmt kann man dann auch ein PDF daraus erstellen lassen.

Bearbeitet von Chief Wiggum

Archiv

Dieses Thema wurde archiviert und kann nicht mehr beantwortet werden.

Configure browser push notifications

Chrome (Android)
  1. Tap the lock icon next to the address bar.
  2. Tap Permissions → Notifications.
  3. Adjust your preference.
Chrome (Desktop)
  1. Click the padlock icon in the address bar.
  2. Select Site settings.
  3. Find Notifications and adjust your preference.