Indexación y acceso a archivos ODT en SOLR
Pregunta
¿Cómo puedo publicar, indexar y buscar contenido dentro de un archivo ODT almacenado en mi directorio SOLR_HOME?
He intentado entender y aplicar las páginas mencionadas a continuación y haber incluido un campo de cuerpo en el esquema:
Texto de indexación y archivos HTML
Solución
Use Apache Tika para extraer contenido y enviarlo a SOLR
Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");
String content = tika.parseToString(fileInputStream, metadata);
Alternativamente, también puede usar ExtractingRequesthandler
Otros consejos
Apache Tika fue requerido.Lo encontré en descargar Tika Apache
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow