Solr Tika，带有风格的文字

https://stackoverflow.com/questions/4436167

09-10-2019
|

题

我看过此链接：http://www.lucidimagination.com/community/hear-from-the-experts/articles/content-extraction-tika我得到的是纯文本，没有Tika的任何样式来搜索。是否可以将文本带有Solr的样式？换句话说，我们需要在Solr搜索后以其原始样式显示文本。

解决方案

如果您考虑一下，PDF中的“原始样式”是什么？您要保留哪些“样式”的组成部分？

它不仅是字体和重量，而且是中风，填充，角度，路径，图形，跟踪，透明度，转换等等。如果您得到了所有这些，如何将其显示在UI/Web中？

除了显示原始PDF之外，您无法真正以任何方式复制原始样式。因此，如果人们想要原始格式，那就是他们通常这样做的方式。

否则，他们只是使用纯文本。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow