Domanda

HYPERLINK etichetta "target"

Come posso estrarre i collegamenti ipertestuali da un documento HWPF? Posso ottenere punti dal file doc ed estrarre lo stile corretto, se necessario, vale a dire grassetto, corsivo, ecc Ma come potrei identificare e collegamenti ipertestuali estrarre da un paragrafo?

È stato utile?

Soluzione

Il formato .doc non memorizza i collegamenti ipertestuali nel più semplice dei modi, come hai notato ...

Un collegamento ipertestuale sarà un unico CharacterRun, con i marcatori speciale su di esso. Una volta che avete individuato, basta dividere il testo sulla base delle quotazioni.

C'è un buon esempio di fare questo in Apache Tika, sguardo al handleSpecialCharacterRuns metodo WordExtractor per vederlo fare.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top