C # download de uma página web. A melhor maneira necessário, o uso da CPU alta
Pergunta
Eu estou tentando obter este pedaço de código de trabalho um pouco melhor. Eu suspeito que é o loop de leitura de um byte de cada vez. Eu não poderia encontrar uma outra maneira de fazer isso com a descompressão gzip. A implementação de um StreamReader
é bom, mas ele retorna uma string que não posso passar para o fluxo de descompressão.
Existe uma maneira melhor?
byte[] bufffer = null;
List<byte> resourceBytes = new List<byte>();
int byteValue = 0;
WebResource resource = new WebResource();
HttpWebResponse webResponse = null;
try {
HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(resourceUri);
webRequest.Headers.Add(HttpRequestHeader.AcceptEncoding, "gzip,deflate");
webRequest.Headers.Add(HttpRequestHeader.AcceptCharset, "ISO-8859-1,utf-8;q=0.7,*;q=0.7");
webRequest.UserAgent = agent;
webRequest.Accept = "text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1";
webRequest.Credentials = CredentialCache.DefaultCredentials;
webRequest.Referer = resourceUri.OriginalString;
webRequest.Timeout = 5000;
webResponse = (HttpWebResponse)webRequest.GetResponse();
Stream webStream = webResponse.GetResponseStream();
if (!string.IsNullOrEmpty(webResponse.ContentEncoding)) {
if (webResponse.ContentEncoding.ToLower().Contains("gzip")) {
webStream = new GZipStream(webStream, CompressionMode.Decompress);
}
else if (webResponse.ContentEncoding.ToLower().Contains("deflate")) {
webStream = new DeflateStream(webStream, CompressionMode.Decompress);
}
}
do {
byteValue = webStream.ReadByte();
if (byteValue != -1) {
resourceBytes.Add((byte)byteValue);
}
} while (byteValue != -1);
//Free up resources
webStream.Close();
webResponse.Close();
bufffer = resourceBytes.ToArray();
Solução
Eu concordo com jmcd que WebClient seria muito mais simples, em particular WebClient.DownloadData.
re a questão real, o problema é que você está lendo bytes individuais, quando você provavelmente deve ter um buffer fixo, e loop -. I
int bytesRead;
byte[] buffer = new byte[1024];
while((bytesRead = webStream.Read(buffer, 0, buffer.Length)) > 0) {
// process "bytesRead" worth of data from "buffer"
}
[editar para dar ênfase] O bit importante é que você única processo "bytesRead" no valor de dados de cada vez; tudo além existe lixo.
Outras dicas
O WebClient class nenhum uso para o que você quer fazer?
Se você quiser a resposta como uma string você pode fazer isso.
String ReponseText;
IO.StreamReader ResponseReader = New IO.StreamReader(webStream );
ReponseText= ResponseReader.ReadToEnd();
Se você quer uma matriz de bytes real fazer isso (desculpe, não me sinto como a conversão para C # para este)
'Declare Array Same size as response
Dim ResponseData(webStream .Length) As Byte
'Read all the data at once
webStream.Read(ResponseData, 0, webStream .Length)