Zum Inhalt springen

Empfohlene Beiträge

Geschrieben

Hallo!

Ich habe, wie sollte es anders sein, mal wieder ein Problem. Ich möchte jetzt (für die die mich schon kennen) nicht nur aus Textdateien Wörter auslesen, sondern auch aus Word Dokumenten.

Nun steht in Word Dokumenten ja eine ganze Menge unwichtes Zeug. Außerdem ließt er bei mir nicht wirklich alles aus!

Was muss ich beachten, und wie werde ich das Unwichtige von Anfang an los? Würde am liebsten erst da einsetzten wo der Text anfängt, nicht alles vorher lesen - überprüfen und dann links liegen lassen, weil es mir nicht gefällt.

Wenn was unklar ist fragt mich bitte, ich hoffe ja das Ihr mir helfen könnt!

Bine

Geschrieben
Original geschrieben von Goos

Hehehe....naja ich glaub, da ists aber doch etwas schneller mit Hilfe von Word konvertiert, als dass man sich in das wunderschoene Format einarbeitet

Das kommt natürlich ganz auf die Anzahl der zu verarbeitenden Word-Dateien an. Außerdem kann Woodstock so plattformunabhängig bleiben. Allerdings scheint das Dateiformat nicht gerade simpel zu sein, und ist natürlich zudem noch von Version zu Version unterschiedlich.
Geschrieben

na ich meinte ja auch nicht vorher konvertieren, sondern zur Laufzeit, aber auf dem Server is wohl kein Word drauf nehm ich mal an....von daher scheidet meine Variante dann aus und du musst dich wohl doch in das schoene Dateiformat einarbeiten.

Goos

Geschrieben

Stimmt, kein Word drauf. Nun, ich habe mir mehrere Word Dateien jetzt schon mal in binärer Darstellung angesehen. Ich habe aber vorallem das Problem, das wenn ich sie öffne, und den Inhalt z.B. mit fgets auslesen will, er mir nur fünf komische Zeichen gibt. Ich also nicht mal alles ausgelesen bekomme. Kann mir da einer was zu sagen, was für einen Trick ich da anwenden muss?

Bine

Geschrieben

Hi,

mit fgets etc. geht das nicht, weil die fuer ASCII-Dateien sind, .doc jedoch BINARY ist. Das heisst, da stehen alle moeglichen Datenstrukturen drin, die anders interpretiert werden muessen. Beispielsweise koennen da auch physische Nullen drinstehen, die in einem ASCII-String als Ende interpretiert werden wuerden, aber in einer solchen Datei eben eine ganz andere Bedeutung haben. Das gleiche gilt auch fuer andere Bitkombinationen, die nach ASCII Steuerzeichen waeren.

Du musst also tatsaechlich bis aufs Byte genau wissen, welche Bedeutung die Daten haben. Dann kannst Du im binary-Mode oeffnen und Dir z. B. mit fread() die gewuenschten Datenbloecke auslesen und in Deinem Sinn weiterbearbeiten.

Nochmal: Du musst absolut genau wissen, wie die Datei aufgebaut ist.

Geschrieben

Seit wann geht wotsit.org nicht mehr? Ich habe es eben mit IE 5.5 und Mozilla 0.99 getestet und es funktioniert wunderbar. Vielleicht hatte die Seite kurzzeitig Probleme aber meistens funktioniert sie ganz gut.

wotsit.org ist auch DIE Ressource, wenn es um Dateiformate geht.

Jan

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung wiederherstellen

  Nur 75 Emojis sind erlaubt.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

Fachinformatiker.de, 2024 by SE Internet Services

fidelogo_small.png

Schicke uns eine Nachricht!

Fachinformatiker.de ist die größte IT-Community
rund um Ausbildung, Job, Weiterbildung für IT-Fachkräfte.

Fachinformatiker.de App

Download on the App Store
Get it on Google Play

Kontakt

Hier werben?
Oder sende eine E-Mail an

Social media u. feeds

Jobboard für Fachinformatiker und IT-Fachkräfte

×
×
  • Neu erstellen...