Domanda

Ho installato Nutch e Lucene per eseguire la scansione e l'indicizzazione di alcuni siti e mi piacerebbe usare un sito Web .net invece del sito JSP fornito con Nutch.

Qualcuno può consigliare alcune soluzioni?

Ho visto soluzioni in cui sul server di indicizzazione era in esecuzione un'app a cui il sito .Net utilizzava il telecomando per connettersi.

Ovviamente la velocità è una considerazione, quindi può ancora funzionare bene?

Modifica: NHibernate potrebbe funzionare. Ricerca per questo?

Modifica: abbiamo finito con i server di indicizzazione Solr utilizzati dal nostro sito ASP.net con solrnet libreria.

È stato utile?

Soluzione

Invece di usare Lucene, potresti usare Solr per indicizzare con nutch (vedi qui ), quindi puoi collegarti molto facilmente a Solr utilizzando una delle due librerie disponibili: SolrSharp e SolrNet .

Altri suggerimenti

Nel caso in cui non fosse del tutto chiaro dalle altre risposte, Lucene.NET e Lucene (Java) usano lo stesso formato di indice, quindi dovresti essere in grado di continuare a usare i tuoi meccanismi esistenti (basati su Java) per indicizzazione , quindi utilizzare Lucene.NET all'interno dell'applicazione Web .NET per interrogare l'indice.

Dal il sito dell'incubatore Lucene.NET :

  

Oltre alle API e alle classi   porta su C #, l'algoritmo di Java   Lucene viene portato su Lucene C #. Questo   indica un indice creato con Java   Lucene è compatibile avanti e indietro   con il Lucene C #; entrambi a leggere,   scrittura e aggiornamento. In effetti un Lucene   indice può essere cercato contemporaneamente e   aggiornato con Java Lucene e C #   Processi di Lucene

Ci sto anche lavorando.

http: / /today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html

Sembra che tu possa inviare la tua query a nutch e recuperare i risultati rss.

modifica:

Ha funzionato oggi in una finestra come prova del concetto. Due caselle di testo (searchurl e query), una per l'URL del server e una per la query. Una vista datagrid.

private void Form1_Load(object sender, EventArgs e)
        {
            searchurl.Text = "http://localhost:8080/opensearch?query=";


    }

    private void search_Click(object sender, EventArgs e)
    {
        string uri;

        uri = searchurl.Text.ToString() + query.Text.ToString();
        Console.WriteLine(uri);

        XmlDocument myXMLDocument = new XmlDocument();

        myXMLDocument.Load(uri);

        DataSet ds = new DataSet();

        ds.ReadXml(new XmlNodeReader(myXMLDocument));

        SearchResultsGridView1.DataSource = ds;
        SearchResultsGridView1.DataMember = "item";

    }

Sono arrivato qui cercando un confronto tra SolrNet e SolrSharp, ho pensato di lasciare qui le mie impressioni.

Sembra che SolarSharp sia un progetto morto (non è stato aggiornato da molto tempo) quindi l'unica opzione è SolarNet.

Spero che questo possa aiutare qualcuno, avrei lasciato un commento alla risposta accettata ma non ho ancora abbastanza reputazione :)

Invece di usare Solr, ho scritto un indicizzatore basato su Java che viene eseguito in un processo cron e un servizio Web basato su Java per l'interrogazione. In realtà non ho indicizzato le pagine tanto quanto i diversi tipi di dati che il sito .net utilizza per creare le pagine. Quindi in realtà ci sono 4 diversi indici ciascuno con una diversa struttura del documento che può essere interrogato allo stesso modo (diciamo: utenti, post, messaggi, foto).

Definendo un XSD per le risposte del servizio Web sono stato in grado di generare sia classi in .net che java per archiviare una rappresentazione dei documenti. Il servizio web fondamentalmente esegue la query sull'indice giusto e compila il codice XML di risposta dagli hit. Il client .net lo analizza in oggetti. C'è anche un'interfaccia json per qualsiasi JavaScript lato client.

Perché non passare da java lucene alla versione dot net. Certo è un investimento ma è principalmente un esercizio di sostituzione di classe. L'ultima cosa di cui hai bisogno sono più strati che non aggiungono valore se non la semplice colla. Meno colla e più roba è ciò che dovresti mirare a ...

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top