Извлечение гиперссылок Apache POI HWPF
-
26-10-2019 - |
Вопрос
Гиперссылка «Целевая» этикетка
Как я могу извлечь гиперссылки из документа HWPF? Я могу получить абзацы из файла DOC и извлечь правильный стиль, если это необходимо, то есть жирным шрифтом, курсивом и т. Д., Но как я бы идентифицировал и извлекал гиперссылки из абзаца?
Решение
Формат .doc не хранит гиперссылки самыми простыми способами, как вы заметили ...
Гиперссылка будет единственным характером, с особыми маркерами на нем. Как только вы обнаружите его, просто разделите текст на основе цитат.
Есть хороший пример этого в Apache Tika, посмотрите на HandleSpecialCharcterruns метод WordExtractor чтобы увидеть это сделано.
Не связан с StackOverflow