Fa esiste alcuna, semplicemente estendibile web crawler aperta?
-
21-09-2019 - |
Domanda
I ricerca di una soluzione web crawler che può è abbastanza maturo e può essere semplicemente esteso. Sono interessato le seguenti caratteristiche ... o possibilità di estendere crawler loro incontro:
- in parte solo per leggere i feed di diversi siti
- a scartare il contenuto di questi siti
- se il sito ha un archivio vorrei scansionare e indicizzare esso pure
- crawler deve essere in grado di esplorare parte del Web per me e dovrebbe essere in grado di decidere quali siti corrisponde ai criteri indicati
- dovrebbe essere in grado di notificare me, se le cose forse corrispondenti a mio interesse sono stati trovati
- crawler non dovrebbe uccidere i server, attaccandola da troppe richieste, si dovrebbe fare intelligente strisciando
- crawler dovrebbe essere robusta contro i siti e server anomale
Quelle cose di cui sopra possono essere fatte una per una senza grande sforzo, ma io sono interessato a qualsiasi soluzione che forniscono un personalizzabile, cingolato estensibile. Ho sentito parlare di Nutch, ma molto incerti circa il progetto fino ad ora. Hai esperienze con esso? Mi può consigliare alternative?
Altri suggerimenti
Ho usato Nutch ampiamente, quando stavo costruendo l'indice progetto open source per la mia startup Krugle. E 'difficile da personalizzare, essendo un design abbastanza monolitica. V'è un'architettura plug-in, ma l'interazione tra i plug-in e il sistema è difficile e fragile.
A seguito di questa esperienza, e che necessitano di qualcosa con maggiore flessibilità, ho iniziato il progetto bixo - un kit di strumenti web mining. http://openbixo.org .
se è giusto per te dipende la ponderazione di fattori quali:
- Quanto flessibilità necessaria (+)
- Come maturare dovrebbe essere (-)
- Se avete bisogno la possibilità di scalare (+)
- Se sei a tuo agio con Java / Hadoop (+)
I raccomandare vivamente Heritrix . E 'molto flessibile e direi è la più battaglia testati liberamente disponibile crawler open source, in quanto è quello Internet Archive utilizza.
Si dovrebbe essere in grado di trovare qualcosa che si adatta alle tue esigenze qui .