Zum Inhalt springen

aus PDF Text extrahieren


Empfohlene Beiträge

Hey

Okay kommen wir gleich zum Thema:

Wie extrahiere ich aus einem PDF Text?

System vorgabe ist:

Gentoo Linux

Aufgabe:

Der Text soll für jedes PDF in einzelen Worte zerlegt werden und in einer Datei abgelegt, um in einer suche zur verfügung zu stehen.

Jetzt das schwere!

Es soll die Relative koordinatenposition des Wortes im PDF lokalisiert werden.

Wenn es Pixel sind auch gut. Kann man ja umrechnen.

Sinn und zweck: In einer Flash-Ansicht auf einer Web-Seite, mit unterschiedlichen Zoomstufen [deshalb relative Koordinaten](nicht mein Part) werden die übereinstimmenden Wörter des PDF mit einem durchsichtigem Layer markiert.

Die PDF's sind Zeitungen und Prospekte im DIN A0 größe als PDF.

Ich habe keinen gescheiten Ansatz...

Die PHP Klassen dazu extrahieren zwar recht erfolgreich den Text, jedoch ohne Position :/

OCR fällt komplett weg da es sehr viel Leistung frisst und gute Lösungen sowohl Hardwareseitig als auch Softwareseitig zu teuer sind.

Ich habe mir mit Editoren das beispiel PDF genauer angeschaut.

Wenn ich das alles soweit richtig verstandne habe wird der Anfang eines Bildes bzw. hier expliziet jpeg so eingeleitet:

...

<rdf:li

      xapGImg:width="256"

      xapGImg:height="188"

      xapGImg:format="JPEG"

...

und ein text/zeichenkette:
...

/Resources<</ColorSpace<</CS0 3545 0 R>>/ExtGState<</GS0 124350 0 R/GS1 3681 0 R>>/Font<</T1_0 124352 0 R/T1_1 124354 0 R/T1_2 3678 0 R/TT0 3543 0 R/TT1 3541 0 R/TT2 3658 0 R>>/ProcSet[/PDF/Text]/Properties<</MC0 3310 0 R>>>>/Rotate 0/StructParents 145/Type/Page>>

endobj

38 0 obj

<</Filter/FlateDecode/Length 4922>>stream

...

Schaue mir grade die PDF Standarts (ISO 32000) an ist leider natürlich in hardcore Englisch.

Kennt sich Jemand da irgendwie ein klitze klein wenig aus?Iich hänge da echt.

Die sufu hier hat mir keine brauchbaren ergebnisse geliefert.

Und google ebenfalls nicht.

Danke schon einmal

Link zu diesem Kommentar
Auf anderen Seiten teilen

Ich halte das Vorgehen für schlecht bei diesen Datenmengen. Einen Text aus einem PDF extrahieren sollte nicht das Problem sein, außer er wurde als Graphik abgelegt. Wobei Du Dir wirklich einmal ausrechnen solltest, welche Datenmengen Du zusammen bekommst, wenn Du pro Wort die "Pixelposition" in einem Dokument speicherst.

Vor allem, wenn ich z.B. in mehreren Dokumenten das Wort "as" suche, ist es sehr wahrscheinlich, dass ich diese Buchstabenkombination häufig finden werden. Für eine rein visuelle Aufbereitung halte ich das Vorgehen für nicht gerechtfertigt. Außerdem ist der zu erstellende Index extrem groß

Link zu diesem Kommentar
Auf anderen Seiten teilen

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...