la fréquence d'indexation des lecteurs réseau

https://stackoverflow.com/questions/3544016

30-09-2019
|

Question

La société pour laquelle je travaille des millions de documents qui sont stockés et partagés sur plusieurs lecteurs réseau mappés aux lecteurs des utilisateurs (par exemple] d: \ à \ server1 \, etc.).

Ce que je voudrais mettre en œuvre est de ramper sur les lecteurs réseau et permet aux utilisateurs à trouver rapidement des fichiers en utilisant une indexation en texte intégral.

Ma stratégie actuelle indexation Lucene.net

Mais je ne sais pas combien de fois je devrais être les lecteurs réseau d'indexation car il y a des millions de documents à indexer et pour ne pas mentionner les paquets circulant sur le réseau.

La question est de savoir comment dois-je mettre en œuvre indexation Fréquence ?
Je fais des recherches sur la fréquence des recherches Google / Windows Desktop index comme un exemple mais été infructueux.

La solution

Beaucoup de la réponse est enveloppé dans tout accord de niveau de service que vous avez avec vos clients. Si votre SLA indique que les résultats de recherche sont en cours dans les X nombre de minutes, que cela répond à votre question sur la façon dont vous devrait mettre en œuvre la fréquence d'indexation.

Si vous, comme moi, n'avez pas SLA en béton est en place pour la recherche et l'indexation, vous pouvez être plus flexible. Par exemple, je gère, entre autres, un serveur SharePoint Search pour mon entreprise. En plus de notre site Web, nous aussi indexer un beaucoup de contenu dans l'espace de fichiers non structurés. Les supports de serveur complet et incrémental crawls. Nous avons chronométré plusieurs crawls de incrémentielles pour obtenir une estimation de la durée nécessaire pour effectuer une analyse incrémentielle. Nous avons ensuite prévu nos analyses incrémentielles sur un intervalle confortablement plus grand que le temps écoulé observé. Nous plein crawls prévu de se produire moins fréquemment à des heures de pointe.

Les détails peuvent varier en fonction de la technologie d'indexation spécifique que vous utilisez, mais le principe est le même:

Observez quelques crawls, de préférence aux heures de pointe et des heures de pointe, et configurer votre horaire de rampement pour être confortablement plus grand que le pire des cas.
Planifiez des analyses pour les temps non plus de pointe à forte intensité de ressources, par exemple le soir.
Si une analyse complète prend plus de quelques heures pour terminer, vous en aurez probablement pour le planifier week-end.
En utilisant une technologie qui prend en charge les analyses incrémentielles peuvent réduire considérablement la bande passante pendant les heures de pointe, tout en conservant la fraîcheur de votre index.

Bonne chance!

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow