Son of a Bit Geschrieben 7. Oktober 2010 Teilen Geschrieben 7. Oktober 2010 Hey Okay kommen wir gleich zum Thema: Wie extrahiere ich aus einem PDF Text? System vorgabe ist: Gentoo Linux Aufgabe: Der Text soll für jedes PDF in einzelen Worte zerlegt werden und in einer Datei abgelegt, um in einer suche zur verfügung zu stehen. Jetzt das schwere! Es soll die Relative koordinatenposition des Wortes im PDF lokalisiert werden. Wenn es Pixel sind auch gut. Kann man ja umrechnen. Sinn und zweck: In einer Flash-Ansicht auf einer Web-Seite, mit unterschiedlichen Zoomstufen [deshalb relative Koordinaten](nicht mein Part) werden die übereinstimmenden Wörter des PDF mit einem durchsichtigem Layer markiert. Die PDF's sind Zeitungen und Prospekte im DIN A0 größe als PDF. Ich habe keinen gescheiten Ansatz... Die PHP Klassen dazu extrahieren zwar recht erfolgreich den Text, jedoch ohne Position :/ OCR fällt komplett weg da es sehr viel Leistung frisst und gute Lösungen sowohl Hardwareseitig als auch Softwareseitig zu teuer sind. Ich habe mir mit Editoren das beispiel PDF genauer angeschaut. Wenn ich das alles soweit richtig verstandne habe wird der Anfang eines Bildes bzw. hier expliziet jpeg so eingeleitet: ... <rdf:li xapGImg:width="256" xapGImg:height="188" xapGImg:format="JPEG" ... und ein text/zeichenkette: ... /Resources<</ColorSpace<</CS0 3545 0 R>>/ExtGState<</GS0 124350 0 R/GS1 3681 0 R>>/Font<</T1_0 124352 0 R/T1_1 124354 0 R/T1_2 3678 0 R/TT0 3543 0 R/TT1 3541 0 R/TT2 3658 0 R>>/ProcSet[/PDF/Text]/Properties<</MC0 3310 0 R>>>>/Rotate 0/StructParents 145/Type/Page>> endobj 38 0 obj <</Filter/FlateDecode/Length 4922>>stream ... Schaue mir grade die PDF Standarts (ISO 32000) an ist leider natürlich in hardcore Englisch. Kennt sich Jemand da irgendwie ein klitze klein wenig aus?Iich hänge da echt. Die sufu hier hat mir keine brauchbaren ergebnisse geliefert. Und google ebenfalls nicht. Danke schon einmal Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
flashpixx Geschrieben 7. Oktober 2010 Teilen Geschrieben 7. Oktober 2010 Ich halte das Vorgehen für schlecht bei diesen Datenmengen. Einen Text aus einem PDF extrahieren sollte nicht das Problem sein, außer er wurde als Graphik abgelegt. Wobei Du Dir wirklich einmal ausrechnen solltest, welche Datenmengen Du zusammen bekommst, wenn Du pro Wort die "Pixelposition" in einem Dokument speicherst. Vor allem, wenn ich z.B. in mehreren Dokumenten das Wort "as" suche, ist es sehr wahrscheinlich, dass ich diese Buchstabenkombination häufig finden werden. Für eine rein visuelle Aufbereitung halte ich das Vorgehen für nicht gerechtfertigt. Außerdem ist der zu erstellende Index extrem groß Zitieren Link zu diesem Kommentar Auf anderen Seiten teilen Mehr Optionen zum Teilen...
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.