Frage

Ich versuche HTML herunterzuladen, damit ich es mit der minimalen Bandbreite zum Herunterladen analysieren kann. Dies ist ein bisschen von meinem Code.

if (!String.IsNullOrEmpty(siteAddress))
                webReq = WebRequest.Create(siteAddress)

                WebResponse webRes = webReq.GetResponse();

                Stream streamResponse = webRes.GetResponseStream();
                StreamReader streamRead = new StreamReader(streamResponse);
                StringReader sr = new StringReader(streamRead.ReadToEnd().Trim());

                streamResponse.Close();
                streamRead.Close();    
                webRes.Close();

                HtmlAgilityPack.HtmlDocument hDoc = new HtmlAgilityPack.HtmlDocument();
                hDoc.Load(sr);

Kann jemand bestätigen, dass das Abrufen der Antwort nur die Textantwort liefert und auch keine Bilder heruntergeladen werden? Was ist, wenn Sie es mit der HTMLAGilityPack -Methode laden?

War es hilfreich?

Lösung

Beim Benutzen WebClient, WebRequest oder HtmlAgilityPack Es ist nur das html Sie werden herunterladen.

Wenn Sie die Bilder (oder andere Ressourcen) möchten, müssen Sie im heruntergeladenen Dokument nach den Bild -URLs suchen und selbst Anfragen ausstellen, um sie zu erhalten.

Wenn Sie ein bisschen experimentieren möchten, die WebBrowser Kontrolle könnte etwas sein, das man sich ansehen kann. Daraus könnten Sie das nehmen Document Eigentum und schauen Sie sich sein Eigentum an Images und laden Sie alle Bilder selbst herunter.

Was möchten Sie tun?

Andere Tipps

Sie laden die HTML -Quelle der Website herunter, nicht die gesamte Website. Das ist ein großer Unterschied.

Sehen Sie, wie man benutzt HTML Agility Pack und auch Dieses hier

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top