Pergunta

Eu tenho bastante grande documento no formato HTML que gerou a partir do Microsoft Word. É soooo confuso e cheio de coisas inchado (como tag desconhecida, unknow namespace etc e outras coisas inchado)

Existe alguma maneira para convertê-lo em HTML simples sytax?

Foi útil?

Solução

Tente HTML Tidy . Eu ouço ele funciona muito bem em HTML gerado pelo MS Word (definitivamente, pelo menos até Word 2000, mas provavelmente em versões mais recentes também).

Outras dicas

Isto não é realmente uma questão de programação, mas (em versões menos recentes de) Word pode salvar a "Página Web, filtrada", que remove tags e propriedades específicas do escritório e só deixa as tags necessárias para o documento a ser processado em um navegador web. Então, se você tem Word, você pode tentar usá-lo para abrir o documento HTML e salvá-lo nesse formato.

Você está procurando provavelmente HTML Tidy , que tem adaptadores em muito muito todas as línguas lá fora. Tem opções para limpar a saída Microsoft Word HTML (e muitas outras características).

Cleanup HTML on-line ferramenta para limpar palavra HTML

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top