Zum Inhalt springen

Son of a Bit

Mitglieder
  • Gesamte Inhalte

    1
  • Benutzer seit

  • Letzter Besuch

  1. Hey Okay kommen wir gleich zum Thema: Wie extrahiere ich aus einem PDF Text? System vorgabe ist: Gentoo Linux Aufgabe: Der Text soll für jedes PDF in einzelen Worte zerlegt werden und in einer Datei abgelegt, um in einer suche zur verfügung zu stehen. Jetzt das schwere! Es soll die Relative koordinatenposition des Wortes im PDF lokalisiert werden. Wenn es Pixel sind auch gut. Kann man ja umrechnen. Sinn und zweck: In einer Flash-Ansicht auf einer Web-Seite, mit unterschiedlichen Zoomstufen [deshalb relative Koordinaten](nicht mein Part) werden die übereinstimmenden Wörter des PDF mit einem durchsichtigem Layer markiert. Die PDF's sind Zeitungen und Prospekte im DIN A0 größe als PDF. Ich habe keinen gescheiten Ansatz... Die PHP Klassen dazu extrahieren zwar recht erfolgreich den Text, jedoch ohne Position :/ OCR fällt komplett weg da es sehr viel Leistung frisst und gute Lösungen sowohl Hardwareseitig als auch Softwareseitig zu teuer sind. Ich habe mir mit Editoren das beispiel PDF genauer angeschaut. Wenn ich das alles soweit richtig verstandne habe wird der Anfang eines Bildes bzw. hier expliziet jpeg so eingeleitet: ... <rdf:li xapGImg:width="256" xapGImg:height="188" xapGImg:format="JPEG" ... und ein text/zeichenkette: ... /Resources<</ColorSpace<</CS0 3545 0 R>>/ExtGState<</GS0 124350 0 R/GS1 3681 0 R>>/Font<</T1_0 124352 0 R/T1_1 124354 0 R/T1_2 3678 0 R/TT0 3543 0 R/TT1 3541 0 R/TT2 3658 0 R>>/ProcSet[/PDF/Text]/Properties<</MC0 3310 0 R>>>>/Rotate 0/StructParents 145/Type/Page>> endobj 38 0 obj <</Filter/FlateDecode/Length 4922>>stream ... Schaue mir grade die PDF Standarts (ISO 32000) an ist leider natürlich in hardcore Englisch. Kennt sich Jemand da irgendwie ein klitze klein wenig aus?Iich hänge da echt. Die sufu hier hat mir keine brauchbaren ergebnisse geliefert. Und google ebenfalls nicht. Danke schon einmal

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...