我看过此链接:http://www.lucidimagination.com/community/hear-from-the-experts/articles/content-extraction-tika我得到的是纯文本,没有Tika的任何样式来搜索。是否可以将文本带有Solr的样式?换句话说,我们需要在Solr搜索后以其原始样式显示文本。

有帮助吗?

解决方案

如果您考虑一下,PDF中的“原始样式”是什么?您要保留哪些“样式”的组成部分?

它不仅是字体和重量,而且是中风,填充,角度,路径,图形,跟踪,透明度,转换等等。如果您得到了所有这些,如何将其显示在UI/Web中?

除了显示原始PDF之外,您无法真正以任何方式复制原始样式。因此,如果人们想要原始格式,那就是他们通常这样做的方式。

否则,他们只是使用纯文本。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top