Neo van Matix Geschrieben 4. Januar 2011 Geschrieben 4. Januar 2011 Hallo, ich habe aktuell einen Kunden, der sich einen neuen Scanner zugelegt hat, und fleißig seine Rechnungen und Dokumente in PDFs scant. Problem ist, dass das Scanprogramm/der Scanner/wasauchimmer keine OCR über das PDF laufen lässt, man also somit auch nicht "in Dokumenten" nach Text suchen kann. Das wäre natürlich nett, wenn man eine Rechnung sucht, aber zB nur den Artikel oder das Gerät kennt. Bevor ich mich an all diesen Namenhaften (und teuren) Softwares vergehen: Ich suche ein OCR-Programm, das: - Anhand von bestehenden PDFs ein OCR durchführen kann. - Als Output wieder direkt PDFs erstellt, bzw. die bestehende Datei überschreibt - Und das am besten automatisch macht - ggf. per Batchscript (checke alle PDFs in Ordner X und erstelle OCR-Versionen) oder per Watchdog im Hintergrund (wenn sich in Ordner X ein neues PDF befindet, mach OCR+PDF) Gewünscht ist, das der Kunde eben ohne viel Aufwand und am besten automatisch OCR-Versionen von seinen PDFs erhält, und somit in diesen auch Suchen kann. Kann sowas mit zB ABBYY FineReader bewerkstelligt werden? Oder gibts da für genau diesen Zweck ordentliche Dokumentenverwaltungs-Softwares? Zitieren
Connor1980 Geschrieben 5. Januar 2011 Geschrieben 5. Januar 2011 Hallo Neo, für diesen Zweck gibt es diese Namenhafte (und teure) Software ELO, gibt es in verschiedenen Versionen, besorg dir eine Testversion, und schau ob das damit so zu bewerkstelligen ist, wie du es dir vorstellst. Du könntest natürlich z.B. auch bei heise.de unter Download->Office->Dokumentenmangement nachschauen, was es noch so gibt. Grüße Connor Zitieren
occi23 Geschrieben 24. Februar 2011 Geschrieben 24. Februar 2011 Ich bin (evtl.) auf der Suche nach etwas ähnlichem. Ich habe auch zahlreiche Scans von Dokumenten aller Art erstellt (als PDF), leider sind diese jetzt nicht durchsuchbar. Eine großangelegte OCR-Erkennung wollte ich nicht machen, eher folgendes: Das Blatt wird normal gescannt und auch als pdf (oder ein anderes Format was später weiterverarbeitet wird) gespeichert. Eine OCR-Software versucht soviel Text zu erkennen wie geht (was nicht oder falsch erkannt wird ist halt nicht oder falsch gespeichert) und speichert diese erkannten Worte als eine Art "Hintergrunddatei" zur PDF. So könnte man zumindest (wenn korrekt erkannt) die korrekte Seite mit dem Suchbegriff ermitteln. Zitieren
Connor1980 Geschrieben 25. Februar 2011 Geschrieben 25. Februar 2011 Hallo occi, was heißt denn für dich normal gescannt und auch als pdf gespeichert? Wenn ich ein Dokument scanne, lege ich es immer als PDF ab (und lasse gleichzeitig OCR drüberlaufen). Außer es ist ein/e Foto/Bild/Grafik. Im ELO wird normalerweise mit TIFF gearbeitet. Die vorhandenen Dokumente nochmal einzuscannen halte ich für überflüssigen Aufwand. Schau dir estmal div. Programme an, wie die arbeiten. Grüße Zitieren
occi23 Geschrieben 25. Februar 2011 Geschrieben 25. Februar 2011 Das Wörtchen "auch" passte da nicht rein. Ich scanne die Dokumente und speichere diese als pdf - fertig. Wenn du ein OCR drüber laufen lässt, erstellt er ja eine pdf nur aus den erkannten Texten. Das geht aber nur bedingt, wenn man viele Grafiken mit auf den Seiten hat, ich habe dazu diverse OCR-Programme versucht, keines hat brauchbare Ergebnisse geliefert. Aus diesem Grund wollte ich das gescannte Dokument so behalten wie es ist und nur wie oben beschrieben scannen lassen. Zitieren
Connor1980 Geschrieben 25. Februar 2011 Geschrieben 25. Februar 2011 Das kommt drauf an, wie das Programm das handhabt, bzw. wie es sich einstellen lässt. Z.B Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird. Übrigens: falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch. Grüße Zitieren
occi23 Geschrieben 26. Februar 2011 Geschrieben 26. Februar 2011 falls du ein MFC Gerät wie z.B. Brother MFC o.ä. hast, schau mal ob da eine Software CD dabei ist. Diese Geräte haben meist schon eine kleine Programm Version wie z.B. ScanSoft (Nuance) Paperport. Zum testen reicht das auch. Da ist eine OmniPage-Version dabei, die kann aber nur reine Textversionen erstellen, hatte ich schon versucht. Andere OCR-Programme auch. Abbyy FineReader kann den Scan vor den Text legen wenn im Nachinein OCR gemacht wird. Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen? --- Ich habe mir nochmal den Acrobat X genau angesehen, da gibt es entsprechende Punkt von wegen eingebettetes OCR, aber nichts wo man irgendeine Texterkennugn starten kann. Muss das evtl. ein anderes Programm machen und Acrobat übernimmt die Erkennung dann? Zitieren
decorous Geschrieben 1. März 2011 Geschrieben 1. März 2011 (bearbeitet) Kann ich damit auch schon als JPG oder TIFF auf der Platte vorliegende Dateien in eien PDF umwandeln und den Text erkennen lassen? Schau Dir mal das an: spamlink entfernt Die Bilddaten werden einfach in ein überwachtes Verzeichnis geschoben und von dort automatisch erfasst, bestimmt kann man dann auch ein PDF daraus erstellen lassen. Bearbeitet 1. März 2011 von Chief Wiggum Zitieren
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.