Zum Inhalt springen

Digitale Dokumentenverwaltung - autom. OCR + PDF-Erstellung?


Empfohlene Beiträge

Geschrieben

Hallo,

ich habe aktuell einen Kunden, der sich einen neuen Scanner zugelegt hat, und fleißig seine Rechnungen und Dokumente in PDFs scant.

Problem ist, dass das Scanprogramm/der Scanner/wasauchimmer keine OCR über das PDF laufen lässt, man also somit auch nicht "in Dokumenten" nach Text suchen kann.

Das wäre natürlich nett, wenn man eine Rechnung sucht, aber zB nur den Artikel oder das Gerät kennt.

Bevor ich mich an all diesen Namenhaften (und teuren) Softwares vergehen:

Ich suche ein OCR-Programm, das:

- Anhand von bestehenden PDFs ein OCR durchführen kann.

- Als Output wieder direkt PDFs erstellt, bzw. die bestehende Datei überschreibt

- Und das am besten automatisch macht - ggf. per Batchscript (checke alle PDFs in Ordner X und erstelle OCR-Versionen) oder per Watchdog im Hintergrund (wenn sich in Ordner X ein neues PDF befindet, mach OCR+PDF)

Gewünscht ist, das der Kunde eben ohne viel Aufwand und am besten automatisch OCR-Versionen von seinen PDFs erhält, und somit in diesen auch Suchen kann.

Kann sowas mit zB ABBYY FineReader bewerkstelligt werden? Oder gibts da für genau diesen Zweck ordentliche Dokumentenverwaltungs-Softwares?

Geschrieben

Hallo Neo,

für diesen Zweck gibt es diese

Namenhafte (und teure) Software
ELO, gibt es in verschiedenen Versionen, besorg dir eine Testversion, und schau ob das damit so zu bewerkstelligen ist, wie du es dir vorstellst.

Du könntest natürlich z.B. auch bei heise.de unter Download->Office->Dokumentenmangement nachschauen, was es noch so gibt.

Grüße

Connor

  • 1 Monat später...
Geschrieben

Ich bin (evtl.) auf der Suche nach etwas ähnlichem. Ich habe auch zahlreiche Scans von Dokumenten aller Art erstellt (als PDF), leider sind diese jetzt nicht durchsuchbar. Eine großangelegte OCR-Erkennung wollte ich nicht machen, eher folgendes:

Das Blatt wird normal gescannt und auch als pdf (oder ein anderes Format was später weiterverarbeitet wird) gespeichert. Eine OCR-Software versucht soviel Text zu erkennen wie geht (was nicht oder falsch erkannt wird ist halt nicht oder falsch gespeichert) und speichert diese erkannten Worte als eine Art "Hintergrunddatei" zur PDF.

So könnte man zumindest (wenn korrekt erkannt) die korrekte Seite mit dem Suchbegriff ermitteln.

Geschrieben

Hallo occi,

was heißt denn für dich

normal gescannt und auch als pdf gespeichert
? Wenn ich ein Dokument scanne, lege ich es immer als PDF ab (und lasse gleichzeitig OCR drüberlaufen). Außer es ist ein/e Foto/Bild/Grafik. Im ELO wird normalerweise mit TIFF gearbeitet.

Die vorhandenen Dokumente nochmal einzuscannen halte ich für überflüssigen Aufwand. Schau dir estmal div. Programme an, wie die arbeiten.

Grüße

Geschrieben

Das Wörtchen "auch" passte da nicht rein. Ich scanne die Dokumente und speichere diese als pdf - fertig.

Wenn du ein OCR drüber laufen lässt, erstellt er ja eine pdf nur aus den erkannten Texten. Das geht aber nur bedingt, wenn man viele Grafiken mit auf den Seiten hat, ich habe dazu diverse OCR-Programme versucht, keines hat brauchbare Ergebnisse geliefert. Aus diesem Grund wollte ich das gescannte Dokument so behalten wie es ist und nur wie oben beschrieben scannen lassen.

Geschrieben

Das kommt drauf an, wie das Programm das handhabt, bzw. wie es sich einstellen lässt. Z.B Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Übrigens: falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Grüße

Geschrieben
falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch.

Da ist eine OmniPage-Version dabei, die kann aber nur reine Textversionen erstellen, hatte ich schon versucht. Andere OCR-Programme auch.

Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird.

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

---

Ich habe mir nochmal den Acrobat X genau angesehen, da gibt es entsprechende Punkt von wegen eingebettetes OCR, aber nichts wo man irgendeine Texterkennugn starten kann. Muss das evtl. ein anderes Programm machen und Acrobat übernimmt die Erkennung dann?

Geschrieben (bearbeitet)

Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen?

Schau Dir mal das an:

spamlink entfernt

Die Bilddaten werden einfach in ein überwachtes Verzeichnis geschoben und von dort automatisch erfasst, bestimmt kann man dann auch ein PDF daraus erstellen lassen.

Bearbeitet von Chief Wiggum

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...