Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung?

Neo van Matix · 4. Januar 2011

Hallo,

ich habe aktuell einen Kunden, der sich einen neuen Scanner zugelegt hat, und fleißig seine Rechnungen und Dokumente in PDFs scant.

Problem ist, dass das Scanprogramm/der Scanner/wasauchimmer keine OCR über das PDF laufen lässt, man also somit auch nicht "in Dokumenten" nach Text suchen kann.

Das wäre natürlich nett, wenn man eine Rechnung sucht, aber zB nur den Artikel oder das Gerät kennt.

Bevor ich mich an all diesen Namenhaften (und teuren) Softwares vergehen:

Ich suche ein OCR-Programm, das:

- Anhand von bestehenden PDFs ein OCR durchführen kann.

- Als Output wieder direkt PDFs erstellt, bzw. die bestehende Datei überschreibt

- Und das am besten automatisch macht - ggf. per Batchscript (checke alle PDFs in Ordner X und erstelle OCR-Versionen) oder per Watchdog im Hintergrund (wenn sich in Ordner X ein neues PDF befindet, mach OCR+PDF)

Gewünscht ist, das der Kunde eben ohne viel Aufwand und am besten automatisch OCR-Versionen von seinen PDFs erhält, und somit in diesen auch Suchen kann.

Kann sowas mit zB ABBYY FineReader bewerkstelligt werden? Oder gibts da für genau diesen Zweck ordentliche Dokumentenverwaltungs-Softwares?

Connor1980 · 5. Januar 2011

Hallo Neo,

für diesen Zweck gibt es diese

Zitat
Namenhafte (und teure) Software

ELO, gibt es in verschiedenen Versionen, besorg dir eine Testversion, und schau ob das damit so zu bewerkstelligen ist, wie du es dir vorstellst.

Du könntest natürlich z.B. auch bei heise.de unter Download->Office->Dokumentenmangement nachschauen, was es noch so gibt.

Grüße

Connor

occi23 · 24. Februar 2011

Ich bin (evtl.) auf der Suche nach etwas ähnlichem. Ich habe auch zahlreiche Scans von Dokumenten aller Art erstellt (als PDF), leider sind diese jetzt nicht durchsuchbar. Eine großangelegte OCR-Erkennung wollte ich nicht machen, eher folgendes:

Das Blatt wird normal gescannt und auch als pdf (oder ein anderes Format was später weiterverarbeitet wird) gespeichert. Eine OCR-Software versucht soviel Text zu erkennen wie geht (was nicht oder falsch erkannt wird ist halt nicht oder falsch gespeichert) und speichert diese erkannten Worte als eine Art "Hintergrunddatei" zur PDF.

So könnte man zumindest (wenn korrekt erkannt) die korrekte Seite mit dem Suchbegriff ermitteln.

Connor1980 · 25. Februar 2011

Hallo occi,

was heißt denn für dich

Zitat
normal gescannt und auch als pdf gespeichert

? Wenn ich ein Dokument scanne, lege ich es immer als PDF ab (und lasse gleichzeitig OCR drüberlaufen). Außer es ist ein/e Foto/Bild/Grafik. Im ELO wird normalerweise mit TIFF gearbeitet.

Die vorhandenen Dokumente nochmal einzuscannen halte ich für überflüssigen Aufwand. Schau dir estmal div. Programme an, wie die arbeiten.

Grüße

occi23 · 25. Februar 2011

Das Wörtchen "auch" passte da nicht rein. Ich scanne die Dokumente und speichere diese als pdf - fertig.

Wenn du ein OCR drüber laufen lässt, erstellt er ja eine pdf nur aus den erkannten Texten. Das geht aber nur bedingt, wenn man viele Grafiken mit auf den Seiten hat, ich habe dazu diverse OCR-Programme versucht, keines hat brauchbare Ergebnisse geliefert. Aus diesem Grund wollte ich das gescannte Dokument so behalten wie es ist und nur wie oben beschrieben scannen lassen.

Connor1980 · 25. Februar 2011

Das kommt drauf an, wie das Programm das handhabt, bzw. wie es sich einstellen lässt. Z.B Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Übrigens: falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Grüße

occi23 · 26. Februar 2011

Connor1980 schrieb:
falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Da ist eine OmniPage-Version dabei, die kann aber nur reine Textversionen erstellen, hatte ich schon versucht. Andere OCR-Programme auch.

Connor1980 schrieb:
Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

---

Ich habe mir nochmal den Acrobat X genau angesehen, da gibt es entsprechende Punkt von wegen eingebettetes OCR, aber nichts wo man irgendeine Texterkennugn starten kann. Muss das evtl. ein anderes Programm machen und Acrobat übernimmt die Erkennung dann?

decorous · 1. März 2011

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

Schau Dir mal das an:

spamlink entfernt

Die Bilddaten werden einfach in ein überwachtes Verzeichnis geschoben und von dort automatisch erfasst, bestimmt kann man dann auch ein PDF daraus erstellen lassen.

Bearbeitet 1. März 2011 von Chief Wiggum

Anmelden

Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung?

Empfohlene Beiträge

Neo van Matix

Connor1980

occi23

Connor1980

occi23

Connor1980

occi23

decorous

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Fachinformatiker Jobs

Fachinformatiker.de, 2024 by SE Internet Services

Links

Fachinformatiker.de App

Kontakt

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

Umsehen

Aktivitäten

Stellenanzeigen

Blog

Über Fachinformatiker.de