Ricerca di un'alternativa libera a Webzinc .NET, screen scraping, librerie di automazione web per .NET [chiuse]

https://stackoverflow.com/questions/1951753

21-09-2019
|

Domanda

Mi sono imbattuto in questa biblioteca NET:

http://www.webzinc.com/online/faq.aspx

Comunque, mi chiedevo se ci fosse un'alternativa libera là fuori?

Soluzione

robot edificio non è così difficile, e ci sono un certo numero di libri che descrivono l'algoritmo generale per farlo (una semplice ricerca su Google rivelerà una serie di algoritmi).

Il jist di esso da un perspecitve NET è quello di ricorsivamente:

pagine Scarica - Questo viene fatto attraverso il HttpWebRequest / HttpWebResponse , o la WebClient classi. Inoltre, è possibile utilizzare la nuova rel="nofollow WCF Web API da CodePlex , che è un stragrande miglioramento rispetto al precedente, significava specificamente per la produzione / consumo di contenuti REST, funziona meravigliosamente per scopi di spidering (soprattutto a causa della sua estensibilità)
Analizzare il contenuto scaricato - I molto consiglia la Html Agility pacchetto così come il Fizzler estensione per il Html Agility pacchetto. L'Agility pacchetto Html gestirà malformati HTML e consentire all'utente di interrogare gli elementi HTML usando XPath (o un sottoinsieme di). Inoltre, Fizzler vi permetterà di utilizzare selettori CSS se si ha familiarità con < a href = "http://api.jquery.com/category/selectors/" rel = "nofollow noreferrer"> utilizzarli in jQuery .
Una volta che hai il codice HTML in un formato strutturato, eseguire la scansione della struttura per il contenuto che è rilevante per voi e di processo.
- Eseguire la scansione del formato strutturato per i collegamenti esterni e posto in coda da elaborare (contro ciò che i vincoli che si desidera per la vostra applicazione, non si è l'indicizzazione del tutto il web, vero?).
- Prendi l'elemento successivo nella coda, e ripetere il processo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow