Zum Inhalt springen
View in the app

A better way to browse. Learn more.

Fachinformatiker.de

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS
  1. Tap the Share icon in Safari
  2. Scroll the menu and tap Add to Home Screen.
  3. Tap Add in the top-right corner.
To install this app on Android
  1. Tap the 3-dot menu (⋮) in the top-right corner of the browser.
  2. Tap Add to Home screen or Install app.
  3. Confirm by tapping Install.

Empfohlene Antworten

Veröffentlicht

Hallo!

Ich habe, wie sollte es anders sein, mal wieder ein Problem. Ich möchte jetzt (für die die mich schon kennen) nicht nur aus Textdateien Wörter auslesen, sondern auch aus Word Dokumenten.

Nun steht in Word Dokumenten ja eine ganze Menge unwichtes Zeug. Außerdem ließt er bei mir nicht wirklich alles aus!

Was muss ich beachten, und wie werde ich das Unwichtige von Anfang an los? Würde am liebsten erst da einsetzten wo der Text anfängt, nicht alles vorher lesen - überprüfen und dann links liegen lassen, weil es mir nicht gefällt.

Wenn was unklar ist fragt mich bitte, ich hoffe ja das Ihr mir helfen könnt!

Bine

Na ja, konvertieren mußt Du nicht, aber Du mußt halt wissen, wie das Word-Format funktioniert. Die entsprechenden Informationen könntest Du unter http://www.wotsit.org/ finden.

HTH

Jan

Original geschrieben von Goos

Hehehe....naja ich glaub, da ists aber doch etwas schneller mit Hilfe von Word konvertiert, als dass man sich in das wunderschoene Format einarbeitet

Das kommt natürlich ganz auf die Anzahl der zu verarbeitenden Word-Dateien an. Außerdem kann Woodstock so plattformunabhängig bleiben. Allerdings scheint das Dateiformat nicht gerade simpel zu sein, und ist natürlich zudem noch von Version zu Version unterschiedlich.

Also ich kann die Datei nicht mit Hilfe von Word vorher konvertieren. Das ganze soll hinterher auf unserem Linux Server laufen.

Hab Ihr eine Idee wie ich das anstellen kann?

Bine

na ich meinte ja auch nicht vorher konvertieren, sondern zur Laufzeit, aber auf dem Server is wohl kein Word drauf nehm ich mal an....von daher scheidet meine Variante dann aus und du musst dich wohl doch in das schoene Dateiformat einarbeiten.

Goos

Stimmt, kein Word drauf. Nun, ich habe mir mehrere Word Dateien jetzt schon mal in binärer Darstellung angesehen. Ich habe aber vorallem das Problem, das wenn ich sie öffne, und den Inhalt z.B. mit fgets auslesen will, er mir nur fünf komische Zeichen gibt. Ich also nicht mal alles ausgelesen bekomme. Kann mir da einer was zu sagen, was für einen Trick ich da anwenden muss?

Bine

Hi,

mit fgets etc. geht das nicht, weil die fuer ASCII-Dateien sind, .doc jedoch BINARY ist. Das heisst, da stehen alle moeglichen Datenstrukturen drin, die anders interpretiert werden muessen. Beispielsweise koennen da auch physische Nullen drinstehen, die in einem ASCII-String als Ende interpretiert werden wuerden, aber in einer solchen Datei eben eine ganz andere Bedeutung haben. Das gleiche gilt auch fuer andere Bitkombinationen, die nach ASCII Steuerzeichen waeren.

Du musst also tatsaechlich bis aufs Byte genau wissen, welche Bedeutung die Daten haben. Dann kannst Du im binary-Mode oeffnen und Dir z. B. mit fread() die gewuenschten Datenbloecke auslesen und in Deinem Sinn weiterbearbeiten.

Nochmal: Du musst absolut genau wissen, wie die Datei aufgebaut ist.

Hast Du dazu eventuell auch einen Link? Der angegebene funktioniert bei mir nicht. Braucht eweig und hängt sich dann auf!

Bine

Seit wann geht wotsit.org nicht mehr? Ich habe es eben mit IE 5.5 und Mozilla 0.99 getestet und es funktioniert wunderbar. Vielleicht hatte die Seite kurzzeitig Probleme aber meistens funktioniert sie ganz gut.

wotsit.org ist auch DIE Ressource, wenn es um Dateiformate geht.

Jan

Erstelle ein Konto oder melde dich an, um einen Kommentar zu schreiben.

Configure browser push notifications

Chrome (Android)
  1. Tap the lock icon next to the address bar.
  2. Tap Permissions → Notifications.
  3. Adjust your preference.
Chrome (Desktop)
  1. Click the padlock icon in the address bar.
  2. Select Site settings.
  3. Find Notifications and adjust your preference.