Frage

Hyperlink "Target" -Label

Wie kann ich Hyperlinks aus einem HWPF -Dokument extrahieren? Ich kann Absätze aus der DOC -Datei erhalten und bei Bedarf das richtige Styling extrahieren, dh fett, kursiv usw. Aber wie würde ich Hyperlinks aus einem Absatz identifizieren und extrahieren?

War es hilfreich?

Lösung

Das .DOC -Format speichert Hyperlinks nicht auf einfachste Weise, wie Sie bemerkt haben ...

Ein Hyperlink ist ein einzelner Charakter, mit speziellen Markern. Sobald Sie es entdeckt haben, teilen Sie den Text einfach auf der Grundlage der Zitate auf.

Es gibt ein gutes Beispiel dafür in Apache Tika, schauen Sie sich das an die HandleSpecialCharacterruns Methode von WordExtractor Um es zu sehen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top