Pergunta

Estou tentando criar um programa que lê um arquivo .docx e publique conteúdo em um blog/fórum para uso pessoal. Finalmente descobri como usar a libcurl para fazer (o que imaginei) foi a parte mais difícil do programa. Agora eu só tenho que ler o arquivo .docx, mas está sob um problema. Não consigo encontrar nenhuma documentação sobre como fazer isso. Alguma ideia?

Foi útil?

Solução

A maneira mais fácil é usar o Word para fazer isso. Tem limitações de licenciamento.

A pergunta SO Criando, abrindo e imprimindo um arquivo Word de C ++ tem algumas boas referências.

Editar:

De acordo com essas perguntas/respostas, pode descompactar o arquivo XML aberto e processar o arquivo XML diretamente:

Se você usa .NET, há mais perguntas (c#) para ler:

Outras dicas

Se você deseja permanecer no mundo de código aberto, o OpenOffice 3 deve poder processar arquivos .docx. Existe um projeto para implementar uma API para muitos idiomas, eu realmente não sei o quão completo ou complexo é.

Existe um roteiro no PHP que pode converter de .docx em texto simples. Ou seja, se você não tem medo de que todos os documentos estejam em russo). Essa pode ser outra opção (acionando o script PHP com uma chamada do sistema e analisando os resultados de um arquivo)

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top