Frage

Ich habe diesen Link zu sehen: http://www.lucidimagination.com/Community / Hear-from-the-Experts / Artikel / Content-Extraction-Tika Was ich bekommen habe ist reiner Text ohne Stil von Tika für Solr suchen in. Ist es möglich, den Text mit seinem Stil von Solr zu haben? Mit anderen Worten, wir müssen Text mit seinem ursprünglichen Stil, nachdem sie von solr gesucht zeigen.

War es hilfreich?

Lösung

Wenn man darüber nachdenkt, was „ursprünglicher Stil“ in einem pdf? Welche Komponenten der „Stil“ tun Sie behalten möchten?

Es ist nicht nur Schriftart und Gewicht, es Schlaganfall, Füllung, Winkel, Pfad, Grafiken, Tracking, Transparenz, Transformationen und vieles mehr. Wenn Sie all das, bekommen wie würden Sie sie zeigen in Ihrem UI / Web?

Sie können nicht wirklich dem ursprünglichen Stil andere jede mögliche Weise replizieren als die Original-PDF-Anzeige. Damit die Art, wie Menschen in der Regel tun, es ist, wenn sie die ursprüngliche Formatierung mögen.

Ansonsten sind sie nur den reinen Text.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top