apache poi hwpfハイパーリンクの抽出
-
26-10-2019 - |
質問
ハイパーリンク「ターゲット」ラベル
HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?ドキュメントファイルから段落を取得し、必要に応じて正しいスタイリング、つまり太字、斜体などを抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?
解決
.doc形式は、あなたが気づいたように、最も単純な方法でハイパーリンクを保存しません...
ハイパーリンクは、特別なマーカーが付いた単一の文字runになります。検出したら、引用符に基づいてテキストを分割するだけです。
Apache Tikaでこれを行う良い例があります、 Handlesecialcharacterruns の方法 wordextractor それが完了するのを見るために。
所属していません StackOverflow