Fa esiste alcuna, semplicemente estendibile web crawler aperta?

https://stackoverflow.com/questions/2085213

21-09-2019
|

Domanda

I ricerca di una soluzione web crawler che può è abbastanza maturo e può essere semplicemente esteso. Sono interessato le seguenti caratteristiche ... o possibilità di estendere crawler loro incontro:

in parte solo per leggere i feed di diversi siti
a scartare il contenuto di questi siti
se il sito ha un archivio vorrei scansionare e indicizzare esso pure
crawler deve essere in grado di esplorare parte del Web per me e dovrebbe essere in grado di decidere quali siti corrisponde ai criteri indicati
dovrebbe essere in grado di notificare me, se le cose forse corrispondenti a mio interesse sono stati trovati
crawler non dovrebbe uccidere i server, attaccandola da troppe richieste, si dovrebbe fare intelligente strisciando
crawler dovrebbe essere robusta contro i siti e server anomale

Quelle cose di cui sopra possono essere fatte una per una senza grande sforzo, ma io sono interessato a qualsiasi soluzione che forniscono un personalizzabile, cingolato estensibile. Ho sentito parlare di Nutch, ma molto incerti circa il progetto fino ad ora. Hai esperienze con esso? Mi può consigliare alternative?

Soluzione

Una rapida ricerca su GitHub vomitò Anemone , un quadro ragnatela che sembra soddisfare le vostre esigenze - in particolare extensiblility. Scritto in Ruby.
Spero che vada bene!

Altri suggerimenti

Ho usato Nutch ampiamente, quando stavo costruendo l'indice progetto open source per la mia startup Krugle. E 'difficile da personalizzare, essendo un design abbastanza monolitica. V'è un'architettura plug-in, ma l'interazione tra i plug-in e il sistema è difficile e fragile.

A seguito di questa esperienza, e che necessitano di qualcosa con maggiore flessibilità, ho iniziato il progetto bixo - un kit di strumenti web mining. http://openbixo.org .

se è giusto per te dipende la ponderazione di fattori quali:

Quanto flessibilità necessaria (+)
Come maturare dovrebbe essere (-)
Se avete bisogno la possibilità di scalare (+)
Se sei a tuo agio con Java / Hadoop (+)

I raccomandare vivamente Heritrix . E 'molto flessibile e direi è la più battaglia testati liberamente disponibile crawler open source, in quanto è quello Internet Archive utilizza.

Si dovrebbe essere in grado di trovare qualcosa che si adatta alle tue esigenze qui .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow