Indicizzazione PDF con i numeri di pagina con Solr
-
28-09-2019 - |
Domanda
Sono indicizzare i file PDF con Solr utilizzando l'ExtractingRequestHandler. Vorrei visualizzare il numero di pagina con colpi in un documento, ad esempio, "foo
termine è stato trovato in bar.pdf
alle pagine 2, 3 e 5".
E 'possibile inserire i numeri di pagina nel risultato della query come questo?
Soluzione
Ci vorrebbe un po 'di sforzo di sviluppo, ma si potrebbe raggiungere questo obiettivo indicizzare ogni pagina di ogni documento come documento separato Solr, e quindi utilizzare campo collasso per raggruppare le diverse visite alla pagina per ogni documento.
Si noti che avete bisogno di un notturno per questo, campo collasso non è implementata in qualsiasi versione attualmente rilasciata Solr.
Si noti inoltre: Campo Crollare è implementato nella versione Solr 3.3 . Ulteriori aggiornamenti sono attesi per il prossimo grande versione ( Solr 4.0 )