Che cos'è un buon strumento Web Crawler [chiuso]

https://stackoverflow.com/questions/176820

05-07-2019
|

Domanda

Devo indicizzare un sacco di pagine Web, quali sono le buone utilità di webcrawler? Preferibilmente cerco qualcosa con cui .NET può parlare, ma questo non è uno showtopper.

Ciò di cui ho veramente bisogno è qualcosa che posso dare a un sito url a & amp; seguirà ogni collegamento e memorizzerà il contenuto per l'indicizzazione.

Soluzione

HTTrack - http://www.httrack.com/ - è un'ottima copiatrice di siti Web . Funziona abbastanza bene. Lo uso da molto tempo.

Nutch è un web crawler (il crawler è il tipo di programma che stai cercando) - http: / /lucene.apache.org/nutch/ - che utilizza un'utilità di ricerca di prim'ordine lucene.

Altri suggerimenti

Crawler4j è un crawler Java open source che fornisce una semplice interfaccia per la scansione del Web. Puoi configurare un crawler web multi-thread in 5 minuti.

È possibile impostare il proprio filtro per visitare le pagine o meno (URL) e definire alcune operazioni per ciascuna pagina sottoposta a scansione in base alla propria logica.

Alcuni motivi per selezionare crawler4j;

Struttura multi-thread,
È possibile impostare la profondità per la scansione,
È basato su Java e open source,
Controllo per collegamenti ridondanti (URL),
Puoi impostare il numero di pagine da sottoporre a scansione,
Puoi impostare la dimensione della pagina da sottoporre a scansione,
Basta documentazione

Searcharoo.NET contiene un ragno che esegue la scansione e l'indicizzazione del contenuto e un motore di ricerca per utilizzarlo. Dovresti essere in grado di orientarti nel codice Searcharoo.Indexer.EXE per intercettare il contenuto mentre viene scaricato e aggiungere il tuo codice personalizzato da lì ...

È molto semplice (tutto il codice sorgente è incluso ed è spiegato in sei articoli CodeProject, il più recente dei quali è qui Searcharoo v6 ): il ragno segue collegamenti, mappe immagine, immagini, obbedisce alle direttive ROBOT, analizza alcuni tipi di file non HTML. È destinato a singoli siti Web (non all'intero Web).

Nutch / Lucene è quasi certamente una soluzione più robusta / di livello commerciale, ma non ho esaminato il loro codice. Non sei sicuro di ciò che desideri ottenere, ma hai anche visto Microsoft Search Server Express ?

Disclaimer: sono l'autore di Searcharoo; offrendolo qui come opzione.

Sphider è abbastanza buono. È PHP, ma potrebbe essere di qualche aiuto.

Uso il software di Web Scraping di Mozenda . Potresti farlo facilmente scansionare tutti i link e prendere tutte le informazioni di cui hai bisogno ed è fantastico software per i soldi.

Non l'ho ancora usato, ma questo sembra interessante. L'autore lo ha scritto da zero e pubblicato come ha fatto. Il codice è disponibile anche per il download.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow