solrを使用したページ番号を使用したPDFのインデックス付け
-
28-09-2019 - |
質問
ExtractingRequesthandlerを使用してSolRを使用してPDFSをインデックスしています。ドキュメントのヒットとともにページ番号を表示したいと思います。例: foo
で発見されました bar.pdf
ページ2、3、5ページ
このようなクエリ結果にページ番号を含めることは可能ですか?
解決
開発の取り組みが必要ですが、各ドキュメントの各ページを別のsolrドキュメントとしてインデックス化することでこれを達成でき、その後使用できます。 フィールドの崩壊 ドキュメントごとに異なるページヒットをグループ化するには。
これには毎晩が必要であることに注意してください。現在リリースされたSOLRバージョンでは、フィールドの崩壊は実装されていません。
また、注:フィールド崩壊はバージョンに実装されています solr 3.3. 。次のビッグバージョンでは、より多くの更新が期待されています( solr 4.0)
所属していません StackOverflow