Sie suchen eine kostenlose Alternative zu Webzinc .NET, Screen Scraping, Web-Automation-Bibliotheken für .NET [geschlossen]

StackOverflow https://stackoverflow.com/questions/1951753

Frage

Ich kam in dieser .NET-Bibliothek:

http://www.webzinc.com/online/faq.aspx

Allerdings war ich frage mich, ob es eine kostenlose Alternative gibt, war?

War es hilfreich?

Lösung

Gebäude Roboter ist nicht so schwer, und es gibt eine Reihe von Büchern, die den allgemeinen Algorithmus beschreiben für so tun (eine einfache Google-Suche wird eine Reihe von Algorithmen aufdrehen).

Die jist es von einem .NET perspecitve ist rekursiv:

  • Download-Seiten - Dies wird durch das getan HttpWebRequest / HttpWebResponse oder WebClient Klassen. Außerdem können Sie die neue verwenden WCF Web API von CodePlex , die a große Verbesserung gegenüber dem oben bedeutete speziell für die Herstellung / raubend REST Inhalt, es funktioniert wunderbar für Zwecke Spidern (vor allem wegen seiner Dehnbarkeit)

  • Parse der heruntergeladene Inhalt - I hoch empfehlen die Html Agility-Pack sowie die Fizzler Erweiterung für das Html Agility-Pack. Das Html Agility-Pack wird ungültiges HTML handhaben und ermöglichen es Ihnen, zu Abfrage HTML-Elementen mit XPath (oder einer Teilmenge von). Darüber hinaus wird Fizzler können Sie CSS-Selektoren verwenden, wenn Sie kennen < a href = "http://api.jquery.com/category/selectors/" rel = "nofollow noreferrer"> sie in jQuery verwenden.

  • Wenn Sie den HTML-Code in einem strukturierten Format haben, scannen die Struktur für den Inhalt, die für Sie relevant ist und es verarbeiten.

    • Scannen Sie das strukturierte Format für externe Links und Platz in der Warteschlange verarbeitet wird (gegen was auch immer Einschränkungen, die Sie für Ihre Anwendung wünschen, Sie sind nicht das gesamte Web indexiert sind Sie?).

    • Holen Sie sich das nächste Element in der Warteschlange, und wiederholen Sie den Vorgang erneut.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top