Domanda

I ricerca di una soluzione web crawler che può è abbastanza maturo e può essere semplicemente esteso. Sono interessato le seguenti caratteristiche ... o possibilità di estendere crawler loro incontro:

  • in parte solo per leggere i feed di diversi siti
  • a scartare il contenuto di questi siti
  • se il sito ha un archivio vorrei scansionare e indicizzare esso pure
  • crawler deve essere in grado di esplorare parte del Web per me e dovrebbe essere in grado di decidere quali siti corrisponde ai criteri indicati
  • dovrebbe essere in grado di notificare me, se le cose forse corrispondenti a mio interesse sono stati trovati
  • crawler non dovrebbe uccidere i server, attaccandola da troppe richieste, si dovrebbe fare intelligente strisciando
  • crawler dovrebbe essere robusta contro i siti e server anomale

Quelle cose di cui sopra possono essere fatte una per una senza grande sforzo, ma io sono interessato a qualsiasi soluzione che forniscono un personalizzabile, cingolato estensibile. Ho sentito parlare di Nutch, ma molto incerti circa il progetto fino ad ora. Hai esperienze con esso? Mi può consigliare alternative?

È stato utile?

Soluzione

Una rapida ricerca su GitHub vomitò Anemone , un quadro ragnatela che sembra soddisfare le vostre esigenze - in particolare extensiblility. Scritto in Ruby.
Spero che vada bene!

Altri suggerimenti

Ho usato Nutch ampiamente, quando stavo costruendo l'indice progetto open source per la mia startup Krugle. E 'difficile da personalizzare, essendo un design abbastanza monolitica. V'è un'architettura plug-in, ma l'interazione tra i plug-in e il sistema è difficile e fragile.

A seguito di questa esperienza, e che necessitano di qualcosa con maggiore flessibilità, ho iniziato il progetto bixo - un kit di strumenti web mining. http://openbixo.org .

se è giusto per te dipende la ponderazione di fattori quali:

  1. Quanto flessibilità necessaria (+)
  2. Come maturare dovrebbe essere (-)
  3. Se avete bisogno la possibilità di scalare (+)
  4. Se sei a tuo agio con Java / Hadoop (+)

I raccomandare vivamente Heritrix . E 'molto flessibile e direi è la più battaglia testati liberamente disponibile crawler open source, in quanto è quello Internet Archive utilizza.

Si dovrebbe essere in grado di trovare qualcosa che si adatta alle tue esigenze qui .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top