Вопрос

Гиперссылка «Целевая» этикетка

Как я могу извлечь гиперссылки из документа HWPF? Я могу получить абзацы из файла DOC и извлечь правильный стиль, если это необходимо, то есть жирным шрифтом, курсивом и т. Д., Но как я бы идентифицировал и извлекал гиперссылки из абзаца?

Это было полезно?

Решение

Формат .doc не хранит гиперссылки самыми простыми способами, как вы заметили ...

Гиперссылка будет единственным характером, с особыми маркерами на нем. Как только вы обнаружите его, просто разделите текст на основе цитат.

Есть хороший пример этого в Apache Tika, посмотрите на HandleSpecialCharcterruns метод WordExtractor чтобы увидеть это сделано.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top