Extracción de apache poi hwpf hipervínculos
-
26-10-2019 - |
Pregunta
Etiqueta de hipervínculo "objetivo"
¿Cómo puedo extraer hipervínculos de un documento HWPF? Puedo obtener párrafos del archivo DOC y extraer el estilo correcto si es necesario, es decir, negrita, cursiva, etc. Pero, pero ¿cómo identificaría y extraería hipervínculos de un párrafo?
Solución
El formato .doc no almacena hipervínculos de la manera más simple, como has notado ...
Un hipervínculo será un solo personaje, con marcadores especiales. Una vez que lo haya detectado, simplemente divida el texto en función de las citas.
Hay un buen ejemplo de hacer esto en Apache Tika, mira el Handlespecial CharacterRuns método de WORDEXTRATOR para verlo hecho.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow