Pregunta

Etiqueta de hipervínculo "objetivo"

¿Cómo puedo extraer hipervínculos de un documento HWPF? Puedo obtener párrafos del archivo DOC y extraer el estilo correcto si es necesario, es decir, negrita, cursiva, etc. Pero, pero ¿cómo identificaría y extraería hipervínculos de un párrafo?

¿Fue útil?

Solución

El formato .doc no almacena hipervínculos de la manera más simple, como has notado ...

Un hipervínculo será un solo personaje, con marcadores especiales. Una vez que lo haya detectado, simplemente divida el texto en función de las citas.

Hay un buen ejemplo de hacer esto en Apache Tika, mira el Handlespecial CharacterRuns método de WORDEXTRATOR para verlo hecho.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top