Script Python para baixar todos os Ctrl+Alt+Del Webcomics? [fechado

https://stackoverflow.com/questions/1183111

19-09-2019
|

Pergunta

Alguém tem um? Eu tentei comicdownloader, mas isso só me permite baixar a história em quadrinhos mais recente e eu não entendo Python bem o suficiente para descobrir como alterá -lo para baixá -lo todos os quadrinhos

Solução

Bem, não é Python e o método também não é muito elegante, mas funcionará.

Depois de uma breve inspeção do Ctrl+Alt+Del Archive Site Descobri que todos os quadrinhos são armazenados em arquivos JPG / AS JPG.

Com essa suposição, executando o seguinte comando em um shell em uma máquina *nix baixará todos os quadrinhos. Os nomes de arquivos são obviamente datas no formato yyyymmdd.

$ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

Ah, e pode demorar um pouco :).

Outras dicas

Bem, existem várias abordagens. Você pode olhar para os URLs das próprias imagens cômicas, para ver se elas seguem um padrão, escreva um pequeno script para gerar URLs que correspondem ao padrão e simplesmente use o WGET ou algo semelhante para baixá -los. Para aprender o python necessário, eu recomendo o Tutorial Python. Observe especificamente maneiras de combinar strings, formatação de string, operações de string, para que você possa criar seus URLs a partir de strings de componentes, números e assim por diante. Esse tipo de projeto pode ser uma boa desculpa para aprender Python, o que provavelmente o ajudará com outras coisas no futuro. (e é divertido!)

Como alternativa, imagino que as pessoas já fizeram isso antes - quase certamente existem aplicativos por aí que fazem o que você deseja, dadas os URLs das imagens, ou apenas o padrão dos URLs. Olhe ao redor.

Você pode escrever para o autor da história em quadrinhos e perguntar se eles estão disponíveis a granel de alguma forma, possivelmente para compra, talvez como um livro. Eu imagino que o Ctrl-Alt-Del seja popular o suficiente para simplesmente absorver a carga adicional de você baixar todo o arquivo, mas sites menores podem não apreciar-embora eu não ache que eles possam realmente impedi-lo ou algo assim.

Quanto à sua pergunta, este site deve ajudá -lo com suas perguntas de programação, ajudá -lo com problemas que você está tendo, empurrá -lo ao longo do caminho - mas principalmente as pessoas não apreciam se você pedir que eles apenas escrevessem seu código para você. Aprenda um pouco de python, tente você mesmo, se tiver algum problema, pergunte então.

Eu uso o urllib com um agente de usuário modificado (desde que Timmy bloqueou o original) e o belo grupo. Enfim, aqui está o gerador de data:

t1 = datetime.date(2002, 10, 22)
t2 = datetime.date.today()
while t2 > t1:
    t1 = t1 + datetime.date.resolution
    toon = t1.strftime("%Y%m%d")
    url1 = str(toon)
    main(url1)

e meu principal (): parece assim (peguei a parte "Verifique se o arquivo existe" para fora)

def main(url):
    con = httplib.HTTPConnection("www.cad-comic.com")
    con.request("GET", "/cad/" + url)
    r1 = con.getresponse()
    soup = BeautifulSoup(r1)
    img = soup.findAll("img")[1]
    nImg = str(img)
    imgSplit = re.split('"', nImg)
    imgUrl = imgSplit[1]
    if imgUrl.startswith('http://www.cad-comic.com/comics/'):
        MeOpans().retrieve(imgUrl, url + ".jpg")
        print "Downloaded " + url

"Meopans ()" se parece com o seguinte:

class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow