aus PDF Text extrahieren

Son of a Bit · 7. Oktober 2010

Hey

Okay kommen wir gleich zum Thema:

Wie extrahiere ich aus einem PDF Text?

System vorgabe ist:

Gentoo Linux

Aufgabe:

Der Text soll für jedes PDF in einzelen Worte zerlegt werden und in einer Datei abgelegt, um in einer suche zur verfügung zu stehen.

Jetzt das schwere!

Es soll die Relative koordinatenposition des Wortes im PDF lokalisiert werden.

Wenn es Pixel sind auch gut. Kann man ja umrechnen.

Sinn und zweck: In einer Flash-Ansicht auf einer Web-Seite, mit unterschiedlichen Zoomstufen [deshalb relative Koordinaten](nicht mein Part) werden die übereinstimmenden Wörter des PDF mit einem durchsichtigem Layer markiert.

Die PDF's sind Zeitungen und Prospekte im DIN A0 größe als PDF.

Ich habe keinen gescheiten Ansatz...

Die PHP Klassen dazu extrahieren zwar recht erfolgreich den Text, jedoch ohne Position :/

OCR fällt komplett weg da es sehr viel Leistung frisst und gute Lösungen sowohl Hardwareseitig als auch Softwareseitig zu teuer sind.

Ich habe mir mit Editoren das beispiel PDF genauer angeschaut.

Wenn ich das alles soweit richtig verstandne habe wird der Anfang eines Bildes bzw. hier expliziet jpeg so eingeleitet:

...

<rdf:li

      xapGImg:width="256"

      xapGImg:height="188"

      xapGImg:format="JPEG"

...

und ein text/zeichenkette:

...

/Resources<</ColorSpace<</CS0 3545 0 R>>/ExtGState<</GS0 124350 0 R/GS1 3681 0 R>>/Font<</T1_0 124352 0 R/T1_1 124354 0 R/T1_2 3678 0 R/TT0 3543 0 R/TT1 3541 0 R/TT2 3658 0 R>>/ProcSet[/PDF/Text]/Properties<</MC0 3310 0 R>>>>/Rotate 0/StructParents 145/Type/Page>>

endobj

38 0 obj

<</Filter/FlateDecode/Length 4922>>stream

...

Schaue mir grade die PDF Standarts (ISO 32000) an ist leider natürlich in hardcore Englisch.

Kennt sich Jemand da irgendwie ein klitze klein wenig aus?Iich hänge da echt.

Die sufu hier hat mir keine brauchbaren ergebnisse geliefert.

Und google ebenfalls nicht.

Danke schon einmal

flashpixx · 7. Oktober 2010

Ich halte das Vorgehen für schlecht bei diesen Datenmengen. Einen Text aus einem PDF extrahieren sollte nicht das Problem sein, außer er wurde als Graphik abgelegt. Wobei Du Dir wirklich einmal ausrechnen solltest, welche Datenmengen Du zusammen bekommst, wenn Du pro Wort die "Pixelposition" in einem Dokument speicherst.

Vor allem, wenn ich z.B. in mehreren Dokumenten das Wort "as" suche, ist es sehr wahrscheinlich, dass ich diese Buchstabenkombination häufig finden werden. Für eine rein visuelle Aufbereitung halte ich das Vorgehen für nicht gerechtfertigt. Außerdem ist der zu erstellende Index extrem groß

Anmelden

aus PDF Text extrahieren

Empfohlene Beiträge

Son of a Bit

flashpixx

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Fachinformatiker Jobs

Fachinformatiker.de, 2024 by SE Internet Services

Links

Fachinformatiker.de App

Kontakt

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

Umsehen

Aktivitäten

Stellenanzeigen

Blog

Über Fachinformatiker.de