Question

HYPERLINK label "cible"

Comment puis-je extraire des liens hypertexte d'un document HWPF? Je peux obtenir les paragraphes du fichier doc et extraire le style correct si nécessaire, à savoir gras, italique, etc. Mais comment pourrais-je identifier et hyperliens extrait d'un paragraphe?

Était-ce utile?

La solution

Le format .doc ne stocke pas les liens hypertexte dans le plus simple des façons, comme vous l'avez remarqué ...

Un lien hypertexte sera un seul CharacterRun, avec des marqueurs spéciaux sur elle. Une fois que vous avez détecté, juste diviser le texte en fonction des guillemets.

Il y a un bon exemple de le faire dans Apache Tika, regardez les handleSpecialCharacterRuns méthode de WordExtractor pour voir faire.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top