Pregunta

Tengo la configuración de nutch y lucene para rastrear e indexar algunos sitios y me gustaría usar un sitio web .net en lugar del sitio JSP que viene con nutch.

¿Alguien puede recomendar algunas soluciones?

He visto soluciones donde había una aplicación ejecutándose en el servidor de índices a la que el sitio .Net usaba de forma remota para conectarse.

La velocidad es una consideración, obviamente, ¿puede seguir funcionando bien?

Editar: ¿podría NHibernate.Search trabajar para esto?

Editar: Terminamos utilizando servidores de índices de Solr utilizados por nuestro sitio ASP.net con solrnet library.

¿Fue útil?

Solución

En lugar de usar Lucene, puede usar Solr para indexar con nutch (consulte aquí ), entonces puede conectarse muy fácilmente a Solr utilizando una de las dos bibliotecas disponibles: SolrSharp y SolrNet .

Otros consejos

En caso de que no quedara totalmente claro a partir de las otras respuestas, Lucene.NET y Lucene (Java) usan el mismo formato de índice, por lo que debería poder seguir usando sus mecanismos existentes (basados ??en Java) para indexando , y luego use Lucene.NET dentro de su aplicación web .NET para consultar el índice.

Desde el sitio de la incubadora Lucene.NET :

  

Además de las API y clases   Puerto a C #, el algoritmo de Java.   Lucene es portada a C # Lucene. Esta   Significa un índice creado con Java.   Lucene es compatible con versiones anteriores   con la C # Lucene; tanto en la lectura,   Redacción y actualización. De hecho una Lucene   índice se puede buscar y al mismo tiempo   actualizado usando Java Lucene y C #   Procesos Lucene

También estoy trabajando en esto.

http: / /today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html

Parece que puede enviar su consulta a nutch y obtener los resultados de RSS.

editar:

Conseguí esto trabajando hoy en forma de ventanas como prueba de concepto. Dos cuadros de texto (searchurl y consulta), uno para la url del servidor y otro para la consulta. Una vista de datos.

private void Form1_Load(object sender, EventArgs e)
        {
            searchurl.Text = "http://localhost:8080/opensearch?query=";


    }

    private void search_Click(object sender, EventArgs e)
    {
        string uri;

        uri = searchurl.Text.ToString() + query.Text.ToString();
        Console.WriteLine(uri);

        XmlDocument myXMLDocument = new XmlDocument();

        myXMLDocument.Load(uri);

        DataSet ds = new DataSet();

        ds.ReadXml(new XmlNodeReader(myXMLDocument));

        SearchResultsGridView1.DataSource = ds;
        SearchResultsGridView1.DataMember = "item";

    }

Llegué aquí al buscar una comparación entre SolrNet y SolrSharp, solo pensé que dejaría aquí mis impresiones.

Parece que SolarSharp es un proyecto muerto (no se actualizó durante mucho tiempo), por lo que la única opción es SolarNet.

Espero que esto ayude a alguien, me habría dejado un comentario a la respuesta aceptada pero todavía no tengo suficiente reputación :)

En lugar de usar Solr, escribí un indexador basado en java que se ejecuta en un trabajo cron y un servicio web basado en java para consultas. En realidad, no indexé páginas tanto como diferentes tipos de datos que el sitio .net usa para construir las páginas. Entonces, en realidad hay 4 índices diferentes, cada uno con una estructura de documento diferente que se puede consultar de la misma manera (por ejemplo: usuarios, publicaciones, mensajes, fotos).

Al definir un XSD para las respuestas del servicio web, pude generar clases en .net y java para almacenar una representación de los documentos. El servicio web básicamente ejecuta la consulta en el índice correcto y completa el xml de respuesta de los resultados. El cliente .net analiza eso de nuevo en objetos. También hay una interfaz json para cualquier JavaScript del lado del cliente.

¿Por qué no cambiar de java lucene a la versión dot net. Claro que es una inversión, pero es sobre todo un ejercicio de sustitución de clase. Lo último que necesita es más capas que no agreguen valor más que solo ser pegamento. Debes apuntar a menos pegamento y más cosas ...

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top