Domanda

Sto cercando un buon bot open source per determinare una certa qualità, spesso necessarie per Google l'indicizzazione.

Ad esempio

  • trova titoli duplicati
  • collegamenti non validi (jspider fanno questo, e credo molto di più lo farà)
  • esattamente la stessa pagina, ma URL diversi
  • ecc, ecc, dove è uguale a google qualità reqs.
È stato utile?

Soluzione

Le vostre esigenze sono molto specifiche, quindi è molto improbabile che ci sia un prodotto open source che fa esattamente quello che vuoi.

Ci sono, tuttavia, molti framework open source per la creazione di web crawler. Quale si usa dipende dalla vostra lingua preferita.

Ad esempio:

In genere, questi quadri forniranno le classi per la scansione e raschiare le pagine di un sito sulla base delle regole che si danno, ma poi sta a voi per estrarre i dati necessari agganciando nel proprio codice.

Altri suggerimenti

Google Webmaster Tools è un servizio web-based (piuttosto che un bot on-demand), e non fa tutto quello che hai chiesto - ma lo fa fare un po 'di esso e un sacco di cose che non avete chiesto, e - essendo da Google - è senza dubbio corrisponde al tuo dispari "ecc, ecc, dove è uguale a google qualità reqs." meglio che altrove lo farà.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top