Indexation et accès des fichiers ODT dans SOLR
Question
Comment puis-je publier, indexer et rechercher du contenu dans un fichier ODT stocké dans mon répertoire SOLR_HOME?
J'ai essayé de comprendre et d'appliquer les pages mentionnées ci-dessous et j'ai inclus un champ de corps dans le schéma:
indexation de texte et de fichiers HTML
La solution
Utilisez Apache TIKA pour extraire le contenu et envoyez-le à SOLR
Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");
String content = tika.parseToString(fileInputStream, metadata);
Alternativement, vous pouvez également utiliser extrayantRequestHandler
Autres conseils
Apache Tika était requis.Trouvé à Apache TIKA Télécharger
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow