script en Python para la descarga de todos los webcomics Ctrl + Alt + Supr? [cerrado]

https://stackoverflow.com/questions/1183111

19-09-2019
|

Pregunta

¿Alguien tiene uno? He intentado Comicdownloader pero que sólo me permite descargar el nuevo cómic y yo no entiendo Python suficientemente bien como para encontrar la manera de cambiarlo para descargar todos los cómics

Solución

Bueno, no es Python y el método no es muy elegante, pero bien que va a trabajar.

Después de una breve inspección de la ctrl + alt + del lugar de archivo he encontrado que todos los cómics se almacenan en / cómic / como archivos jpg.

Con esta suposición, ejecutando el siguiente comando en un shell en una máquina * nix descargará todos los cómics. Los nombres de archivo son, obviamente, las fechas en el formato AAAAMMDD.

$ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

Ah, y puede tomar un tiempo:.)

Otros consejos

Bueno, hay varios enfoques. Usted podría mirar a las URL de las propias imágenes cómicas, para ver si siguen un patrón, escribir un pequeño script para generar direcciones URL que coinciden con el patrón, y simplemente usar wget o algo similar para descargarlos. Para conocer la pitón requisito, recomiendo el Guía de aprendizaje de . Mira específicamente la manera de cadenas, que combinan el formato de cadenas, operaciones de cadena, para que pueda construir sus URL a partir de cadenas de componentes, números, y así sucesivamente. Este tipo de proyecto puede ser una buena excusa para aprender Python, lo que probablemente le ayudará con otras cosas en el futuro. (Y es divertido!)

Por otra parte, me imagino que la gente ha hecho esto antes - es casi seguro que son aplicaciones que hay que hacer lo que desee, teniendo en cuenta las URL de las imágenes, o simplemente el patrón de URL. Mira alrededor.

Se puede escribir al autor del cómic y preguntar si están disponibles a granel de alguna manera, posiblemente para su compra, tal vez en forma de libro. Imagino ctrl-alt-del es lo suficientemente popular como para absorber la carga simplemente añadida de que la descarga todo el archivo, pero los sitios más pequeños no podría apreciarlo - aunque no creo que realmente ni nada puede detener

En cuanto a su pregunta, este sitio debe ayudarle con sus preguntas de programación, ayudarle con los problemas que está teniendo, es empujar a lo largo del camino - pero sobre todo la gente no aprecia si se les pide que acaba de escribir su código para ti. Aprender algo de pitón, hacerlo por uno mismo, si surge algún problema, pida a continuación.

utilizo urllib con un agente de usuario modificado (desde Timmy bloqueó el original) y BeautifulSoup. De todos modos, aquí está el generador de fecha:

t1 = datetime.date(2002, 10, 22)
t2 = datetime.date.today()
while t2 > t1:
    t1 = t1 + datetime.date.resolution
    toon = t1.strftime("%Y%m%d")
    url1 = str(toon)
    main(url1)

y mi main (): se parece a esto (tomó el "Comprobar si el archivo existe" parte hacia fuera)

def main(url):
    con = httplib.HTTPConnection("www.cad-comic.com")
    con.request("GET", "/cad/" + url)
    r1 = con.getresponse()
    soup = BeautifulSoup(r1)
    img = soup.findAll("img")[1]
    nImg = str(img)
    imgSplit = re.split('"', nImg)
    imgUrl = imgSplit[1]
    if imgUrl.startswith('http://www.cad-comic.com/comics/'):
        MeOpans().retrieve(imgUrl, url + ".jpg")
        print "Downloaded " + url

"MeOpans ()" tiene el siguiente aspecto:

class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow