Question

Je suis en train de créer un programme qui lit un fichier .docx et les messages qu'il contenu sur un blog / forum pour un usage personnel. Enfin, je l'ai compris comment utiliser libcurl faire (ce que je pensais) était la partie la plus difficile du programme. Maintenant, je viens de lire le fichier .docx, mais ont fait l'objet d'un accroc. Je ne peux pas sembler trouver de la documentation sur la façon de le faire. Toutes les idées?

Était-ce utile?

La solution

Le plus simple est d'utiliser Word pour le faire. Il a des limites sur les licences.

La question SO création, l'ouverture et l'impression d'un fichier Word de C ++ a quelques bonnes références.

Modifier

Selon ces questions / réponses peuvent décompressez le fichier Open XML et traiter le fichier XML directement:

Si vous utilisez des questions à lire .NET il y a plus de (C #):

Autres conseils

Si vous voulez rester sur le monde open source, OpenOffice 3 devrait être en mesure de traiter les fichiers .docx. Il y a un projet pour mettre en œuvre une API pour de nombreuses langues, je ne sais pas vraiment comment complet ou complexe, il est.

Il y a un en PHP qui peut convertir .docx en texte brut. Autrement dit, si vous n'êtes pas peur que tous les documents sont en russe). Cela pourrait être une autre option (déclencher le script php avec un appel système et l'analyse des résultats d'un fichier)

scroll top