Qual é a melhor maneira para descomprimir uma resposta do servidor gzip'ed em Python 3?

StackOverflow https://stackoverflow.com/questions/720273

  •  23-08-2019
  •  | 
  •  

Pergunta

Eu esperava isso ao trabalho:

>>> import urllib.request as r
>>> import zlib
>>> r.urlopen( r.Request("http://google.com/search?q=foo", headers={"User-Agent": "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11", "Accept-Encoding": "gzip"}) ).read()
b'af0\r\n\x1f\x8b\x08...(long binary string)'
>>> zlib.decompress(_)
Traceback (most recent call last):
  File "<pyshell#87>", line 1, in <module>
    zlib.decompress(x)
zlib.error: Error -3 while decompressing data: incorrect header check

Mas isso não acontece. Dive Into Python usa StringIO neste exemplo, mas que parece estar faltando Python 3. Qual é a maneira certa de fazê-lo?

Foi útil?

Solução

Ele funciona muito bem com gzip (gzip e zlib são a mesma compressão, mas com diferentes cabeçalhos / "embrulho". Seu erro tem esta informação na mensagem).

import gzip
import urllib.request

request = urllib.request.Request(
    "http://google.com/search?q=foo",
    headers={
        "Accept-Encoding": "gzip",
        "User-Agent": "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11", 
    })
response = urllib.request.urlopen(request)
gzipFile = gzip.GzipFile(fileobj=response)
gzipFile.read()

Outras dicas

Em Python 3, StringIO é uma classe no módulo io.

Assim, para o exemplo que você ligado a, se você alterar:

import StringIO
compressedstream = StringIO.StringIO(compresseddata)

para:

import io
compressedstream = io.StringIO(compresseddata)

que deveria trabalho.

Para qualquer um usando o Python 3.2 ou posterior, há uma maneira ainda mais simples para descomprimir uma resposta do que qualquer uma das respostas aqui:

import gzip
import urllib.request

request = urllib.request.Request(
    "http://example.com/",
    headers={"Accept-Encoding": "gzip"})
response = urllib.request.urlopen(request)
result = gzip.decompress(response.read())
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top