Woodstock Geschrieben 17. April 2002 Geschrieben 17. April 2002 Hallo! Ich habe, wie sollte es anders sein, mal wieder ein Problem. Ich möchte jetzt (für die die mich schon kennen) nicht nur aus Textdateien Wörter auslesen, sondern auch aus Word Dokumenten. Nun steht in Word Dokumenten ja eine ganze Menge unwichtes Zeug. Außerdem ließt er bei mir nicht wirklich alles aus! Was muss ich beachten, und wie werde ich das Unwichtige von Anfang an los? Würde am liebsten erst da einsetzten wo der Text anfängt, nicht alles vorher lesen - überprüfen und dann links liegen lassen, weil es mir nicht gefällt. Wenn was unklar ist fragt mich bitte, ich hoffe ja das Ihr mir helfen könnt! Bine Zitieren
Goos Geschrieben 17. April 2002 Geschrieben 17. April 2002 Hoi, also ich wuerd mal vom Gefuehl her sagen, dass du um ein konvertieren in ein normales text Format nicht herumkommst. Goos Zitieren
Orffi Geschrieben 17. April 2002 Geschrieben 17. April 2002 Na ja, konvertieren mußt Du nicht, aber Du mußt halt wissen, wie das Word-Format funktioniert. Die entsprechenden Informationen könntest Du unter http://www.wotsit.org/ finden. HTH Jan Zitieren
Goos Geschrieben 17. April 2002 Geschrieben 17. April 2002 Hehehe....naja ich glaub, da ists aber doch etwas schneller mit Hilfe von Word konvertiert, als dass man sich in das wunderschoene Format einarbeitet Goos Zitieren
Klotzkopp Geschrieben 18. April 2002 Geschrieben 18. April 2002 Original geschrieben von Goos Hehehe....naja ich glaub, da ists aber doch etwas schneller mit Hilfe von Word konvertiert, als dass man sich in das wunderschoene Format einarbeitetDas kommt natürlich ganz auf die Anzahl der zu verarbeitenden Word-Dateien an. Außerdem kann Woodstock so plattformunabhängig bleiben. Allerdings scheint das Dateiformat nicht gerade simpel zu sein, und ist natürlich zudem noch von Version zu Version unterschiedlich. Zitieren
Woodstock Geschrieben 18. April 2002 Autor Geschrieben 18. April 2002 Also ich kann die Datei nicht mit Hilfe von Word vorher konvertieren. Das ganze soll hinterher auf unserem Linux Server laufen. Hab Ihr eine Idee wie ich das anstellen kann? Bine Zitieren
Goos Geschrieben 18. April 2002 Geschrieben 18. April 2002 na ich meinte ja auch nicht vorher konvertieren, sondern zur Laufzeit, aber auf dem Server is wohl kein Word drauf nehm ich mal an....von daher scheidet meine Variante dann aus und du musst dich wohl doch in das schoene Dateiformat einarbeiten. Goos Zitieren
Woodstock Geschrieben 18. April 2002 Autor Geschrieben 18. April 2002 Stimmt, kein Word drauf. Nun, ich habe mir mehrere Word Dateien jetzt schon mal in binärer Darstellung angesehen. Ich habe aber vorallem das Problem, das wenn ich sie öffne, und den Inhalt z.B. mit fgets auslesen will, er mir nur fünf komische Zeichen gibt. Ich also nicht mal alles ausgelesen bekomme. Kann mir da einer was zu sagen, was für einen Trick ich da anwenden muss? Bine Zitieren
gajUli Geschrieben 18. April 2002 Geschrieben 18. April 2002 Hi, mit fgets etc. geht das nicht, weil die fuer ASCII-Dateien sind, .doc jedoch BINARY ist. Das heisst, da stehen alle moeglichen Datenstrukturen drin, die anders interpretiert werden muessen. Beispielsweise koennen da auch physische Nullen drinstehen, die in einem ASCII-String als Ende interpretiert werden wuerden, aber in einer solchen Datei eben eine ganz andere Bedeutung haben. Das gleiche gilt auch fuer andere Bitkombinationen, die nach ASCII Steuerzeichen waeren. Du musst also tatsaechlich bis aufs Byte genau wissen, welche Bedeutung die Daten haben. Dann kannst Du im binary-Mode oeffnen und Dir z. B. mit fread() die gewuenschten Datenbloecke auslesen und in Deinem Sinn weiterbearbeiten. Nochmal: Du musst absolut genau wissen, wie die Datei aufgebaut ist. Zitieren
Woodstock Geschrieben 18. April 2002 Autor Geschrieben 18. April 2002 Hast Du dazu eventuell auch einen Link? Der angegebene funktioniert bei mir nicht. Braucht eweig und hängt sich dann auf! Bine Zitieren
Orffi Geschrieben 18. April 2002 Geschrieben 18. April 2002 Seit wann geht wotsit.org nicht mehr? Ich habe es eben mit IE 5.5 und Mozilla 0.99 getestet und es funktioniert wunderbar. Vielleicht hatte die Seite kurzzeitig Probleme aber meistens funktioniert sie ganz gut. wotsit.org ist auch DIE Ressource, wenn es um Dateiformate geht. Jan Zitieren
Empfohlene Beiträge
Dein Kommentar
Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.