Extrahieren von Apache POI HWPF -Hyperlinks
-
26-10-2019 - |
Frage
Hyperlink "Target" -Label
Wie kann ich Hyperlinks aus einem HWPF -Dokument extrahieren? Ich kann Absätze aus der DOC -Datei erhalten und bei Bedarf das richtige Styling extrahieren, dh fett, kursiv usw. Aber wie würde ich Hyperlinks aus einem Absatz identifizieren und extrahieren?
Lösung
Das .DOC -Format speichert Hyperlinks nicht auf einfachste Weise, wie Sie bemerkt haben ...
Ein Hyperlink ist ein einzelner Charakter, mit speziellen Markern. Sobald Sie es entdeckt haben, teilen Sie den Text einfach auf der Grundlage der Zitate auf.
Es gibt ein gutes Beispiel dafür in Apache Tika, schauen Sie sich das an die HandleSpecialCharacterruns Methode von WordExtractor Um es zu sehen.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow