Comment implémenter un IFilter pour l'indexation des formats lourds?

https://stackoverflow.com/questions/464443

19-08-2019
|

Question

Je dois développer un IFilter pour Microsoft Search Server 2008 qui effectue des calculs prolongés pour extraire du texte. L’extraction de texte d’un fichier peut durer de 5 secondes à 12 heures. Comment puis-je concevoir un tel IFilter afin que le démon ne le réinitialise pas à l'expiration du délai et que d'autres IFilters puissent l'être également s'ils se raccrochent?

La solution

12 heures, wow!

Si cela prend tant de temps et qu'il y a beaucoup de fichiers, la meilleure option serait de créer une application de pré-traitement qui extrairait le texte et le rendrait accessible à iFilter.

Une autre option serait de créer des résumés html des documents et de demander au robot d'exploration de les indexer. Si la page de résumé peut facilement créer un lien vers le document lui-même si nécessaire.

Autres conseils

Je n'ai pas encore développé de filtres, donc je ne fais que supposer, mais j'ai toujours compris que l'IFilter est basé sur les blocs pour cette raison. Il incombe à l’implémentation du filtre de s’assurer que les fragments renvoyés sont "suffisamment petits", de sorte que le démon de recherche appelant puisse simplement quitter entre deux morceaux si la durée est trop longue.

Apparemment, mon hypothèse est fausse, sinon vous ne poseriez pas cette question.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow