質問

ハイパーリンク「ターゲット」ラベル

HWPFドキュメントからハイパーリンクを抽出するにはどうすればよいですか?ドキュメントファイルから段落を取得し、必要に応じて正しいスタイリング、つまり太字、斜体などを抽出できます。しかし、段落からハイパーリンクを識別して抽出するにはどうすればよいですか?

役に立ちましたか?

解決

.doc形式は、あなたが気づいたように、最も単純な方法でハイパーリンクを保存しません...

ハイパーリンクは、特別なマーカーが付いた単一の文字runになります。検出したら、引用符に基づいてテキストを分割するだけです。

Apache Tikaでこれを行う良い例があります、 Handlesecialcharacterruns の方法 wordextractor それが完了するのを見るために。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top