Che cos'è un buon strumento Web Crawler [chiuso]
-
05-07-2019 - |
Domanda
Devo indicizzare un sacco di pagine Web, quali sono le buone utilità di webcrawler? Preferibilmente cerco qualcosa con cui .NET può parlare, ma questo non è uno showtopper.
Ciò di cui ho veramente bisogno è qualcosa che posso dare a un sito url a & amp; seguirà ogni collegamento e memorizzerà il contenuto per l'indicizzazione.
Soluzione
HTTrack - http://www.httrack.com/ - è un'ottima copiatrice di siti Web . Funziona abbastanza bene. Lo uso da molto tempo.
Nutch è un web crawler (il crawler è il tipo di programma che stai cercando) - http: / /lucene.apache.org/nutch/ - che utilizza un'utilità di ricerca di prim'ordine lucene.
Altri suggerimenti
Crawler4j è un crawler Java open source che fornisce una semplice interfaccia per la scansione del Web. Puoi configurare un crawler web multi-thread in 5 minuti.
È possibile impostare il proprio filtro per visitare le pagine o meno (URL) e definire alcune operazioni per ciascuna pagina sottoposta a scansione in base alla propria logica.
Alcuni motivi per selezionare crawler4j;
- Struttura multi-thread,
- È possibile impostare la profondità per la scansione,
- È basato su Java e open source,
- Controllo per collegamenti ridondanti (URL),
- Puoi impostare il numero di pagine da sottoporre a scansione,
- Puoi impostare la dimensione della pagina da sottoporre a scansione,
- Basta documentazione
Searcharoo.NET contiene un ragno che esegue la scansione e l'indicizzazione del contenuto e un motore di ricerca per utilizzarlo. Dovresti essere in grado di orientarti nel codice Searcharoo.Indexer.EXE per intercettare il contenuto mentre viene scaricato e aggiungere il tuo codice personalizzato da lì ...
È molto semplice (tutto il codice sorgente è incluso ed è spiegato in sei articoli CodeProject, il più recente dei quali è qui Searcharoo v6 ): il ragno segue collegamenti, mappe immagine, immagini, obbedisce alle direttive ROBOT, analizza alcuni tipi di file non HTML. È destinato a singoli siti Web (non all'intero Web).
Nutch / Lucene è quasi certamente una soluzione più robusta / di livello commerciale, ma non ho esaminato il loro codice. Non sei sicuro di ciò che desideri ottenere, ma hai anche visto Microsoft Search Server Express ?
Disclaimer: sono l'autore di Searcharoo; offrendolo qui come opzione.
Sphider è abbastanza buono. È PHP, ma potrebbe essere di qualche aiuto.
Uso il software di Web Scraping di Mozenda . Potresti farlo facilmente scansionare tutti i link e prendere tutte le informazioni di cui hai bisogno ed è fantastico software per i soldi.
Non l'ho ancora usato, ma questo sembra interessante. L'autore lo ha scritto da zero e pubblicato come ha fatto. Il codice è disponibile anche per il download.