Pregunta

El trabajo de la compañía que para tener millones de documentos almacenados y compartidos en varias unidades de red asignadas a las unidades de los usuarios (por ejemplo] D: \ a \ \ server1, etc.).

Lo que me gustaría implementar es que trepar por las unidades de red y permite a los usuarios encontrar archivos rápidamente utilizando una indización de texto completo.

Mi actual indexación estrategia es Lucene.net

Pero no estoy seguro de con qué frecuencia debería ser unidades de red de indexación porque hay millones de documentos al índice y por no hablar de los paquetes que viajan por la red.

Así que la pregunta es ¿cómo debo poner en práctica indexación frecuencia ?
He estado haciendo investigaciones sobre la frecuencia con índice de búsquedas Google / Escritorio de Windows como ejemplo, pero sido infructuosos.

¿Fue útil?

Solución

Una gran cantidad de la respuesta está envuelto en los acuerdos de nivel de servicio lo que tiene con sus clientes. Si el SLA establece que los resultados de la búsqueda son actuales dentro de X cantidad de minutos, que responde a su pregunta de cómo se debe implementar la frecuencia de indexación.

Si, como yo, no tiene concreta de SLA en su sitio para la búsqueda e indexación, a continuación, puede ser más flexible. Por ejemplo, me las arreglo, entre otras cosas, un servidor de búsqueda de SharePoint para mi negocio. Además de nuestro sitio web, sino que también un índice de mucho de los contenidos en el espacio de archivos no estructurados. Soporta el servidor completa y incrementales se arrastra. Nos ha superado varios rastreos incrementales para obtener una estimación de cuánto tiempo se tarda en completar un rastreo incremental. a continuación, nos programado nuestros rastreos incrementales en un intervalo cómodamente mayor que el tiempo transcurrido observado. Nos programado rastreos completos a ocurrir con menos frecuencia en horas no pico.

Los detalles pueden variar dependiendo de la tecnología específica de indexación que utiliza, pero el principio es el mismo:

  • Observar unos rastreos, preferiblemente a pico y no pico veces, y configurar la programación de rastreo para ser cómodamente más grande que el peor de los casos.
  • Programar rastreos más intensivos en recursos para las horas pico no, como por la noche.
  • Si un rastreo completo tarda más de unas pocas horas para completar, a continuación, lo más probable es planificar las tareas para el fin de semana.
  • El uso de una tecnología que soporta los rastreos incrementales pueden reducir sustancialmente el ancho de banda durante las horas pico al mismo tiempo mantener su fresca índice.

Buena suerte!

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top