apache poi hwpfハイパーリンクの抽出

質問

ハイパーリンク「ターゲット」ラベル

HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか？ドキュメントファイルから段落を取得し、必要に応じて正しいスタイリング、つまり太字、斜体などを抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか？

解決

.doc形式は、あなたが気づいたように、最も単純な方法でハイパーリンクを保存しません...

ハイパーリンクは、特別なマーカーが付いた単一の文字runになります。検出したら、引用符に基づいてテキストを分割するだけです。

Apache Tikaでこれを行う良い例があります、 Handlesecialcharacterruns の方法 wordextractor それが完了するのを見るために。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow