Ricerca di un'alternativa libera a Webzinc .NET, screen scraping, librerie di automazione web per .NET [chiuse]
-
21-09-2019 - |
Domanda
Mi sono imbattuto in questa biblioteca NET:
http://www.webzinc.com/online/faq.aspx
Comunque, mi chiedevo se ci fosse un'alternativa libera là fuori?
Soluzione
robot edificio non è così difficile, e ci sono un certo numero di libri che descrivono l'algoritmo generale per farlo (una semplice ricerca su Google rivelerà una serie di algoritmi).
Il jist di esso da un perspecitve NET è quello di ricorsivamente:
-
pagine Scarica - Questo viene fatto attraverso il
HttpWebRequest
/HttpWebResponse
, o laWebClient
classi. Inoltre, è possibile utilizzare la nuova rel="nofollow WCF Web API da CodePlex , che è un stragrande miglioramento rispetto al precedente, significava specificamente per la produzione / consumo di contenuti REST, funziona meravigliosamente per scopi di spidering (soprattutto a causa della sua estensibilità) -
Analizzare il contenuto scaricato - I molto consiglia la Html Agility pacchetto così come il Fizzler estensione per il Html Agility pacchetto. L'Agility pacchetto Html gestirà malformati HTML e consentire all'utente di interrogare gli elementi HTML usando XPath (o un sottoinsieme di). Inoltre, Fizzler vi permetterà di utilizzare selettori CSS se si ha familiarità con < a href = "http://api.jquery.com/category/selectors/" rel = "nofollow noreferrer"> utilizzarli in jQuery .
-
Una volta che hai il codice HTML in un formato strutturato, eseguire la scansione della struttura per il contenuto che è rilevante per voi e di processo.
-
Eseguire la scansione del formato strutturato per i collegamenti esterni e posto in coda da elaborare (contro ciò che i vincoli che si desidera per la vostra applicazione, non si è l'indicizzazione del tutto il web, vero?).
-
Prendi l'elemento successivo nella coda, e ripetere il processo.
-