script python per il download di tutti i webcomics Ctrl + Alt + Canc? [chiuso]

https://stackoverflow.com/questions/1183111

19-09-2019
|

Domanda

Qualcuno ha uno? Ive ha provato Comicdownloader ma che solo mi permette di scaricare l'ultima comico e non capisco Python abbastanza bene per capire come cambiare a scaricare tutti i fumetti

Soluzione

Beh, non è Python e il metodo non è molto elegante sia, ma che funzionerà.

Dopo una breve ispezione della ctrl + alt + canc sito archivio ho trovato che tutti i fumetti sono memorizzati in / fumetti / come file jpg.

Con questo presupposto, eseguendo il seguente comando in una shell su una macchina * nix scaricherà tutti i fumetti. I nomi dei file sono data, ovviamente, nel formato AAAAMMGG.

$ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

Oh, e si può prendere un po ':.)

Altri suggerimenti

Bene, ci sono diversi approcci. Si poteva guardare gli URL delle immagini di fumetti stessi, per vedere se si seguono uno schema, scrivere un piccolo script per generare gli URL che corrispondono al modello, e utilizzano semplicemente wget o qualcosa di simile per scaricarli. Per conoscere il pitone requisito, vi consiglio il Python Tutorial . Esamina specificamente le modalità di stringhe che conciliano, formattazione di stringhe, operazioni sulle stringhe, in modo da poter costruire i tuoi URL da stringhe di componenti, i numeri, e così via. Questo tipo di progetto può essere una buona scusa per imparare python, che probabilmente vi aiuterà con altre cose in futuro. (Ed è divertente!)

In alternativa, immagino che le persone hanno fatto prima - ci quasi certamente sono applicazioni là fuori che fare quello che vuoi, date le URL delle immagini, o solo il modello di URL. Dare un'occhiata in giro.

Si potrebbe scrivere all'autore del fumetto e chiedere se sono disponibili in massa in qualche modo, forse per l'acquisto, forse come un libro. Immagino ctrl-alt-del è abbastanza popolare per assorbire semplicemente il carico aggiunto di volta scaricato l'intero archivio, ma piccoli siti web potrebbe non apprezzare - anche se non credo che si può davvero voi o nulla fermare

Per quanto riguarda la tua domanda, questo sito dovrebbe aiutare con le vostre domande di programmazione, è aiutare con problemi si hanno, si spostare lungo la strada - ma soprattutto le persone non apprezzano se si chiede loro di appena scrivere il codice per te. Imparare un po 'di pitone, provate voi stessi, se si esegue in qualche problema, chiedere poi.

Uso urllib con un agente utente modificato (dal Timmy bloccato l'originale) e BeautifulSoup. In ogni caso, ecco il generatore Data:

t1 = datetime.date(2002, 10, 22)
t2 = datetime.date.today()
while t2 > t1:
    t1 = t1 + datetime.date.resolution
    toon = t1.strftime("%Y%m%d")
    url1 = str(toon)
    main(url1)

e il mio main (): si presenta così (ha preso il "controllo se il file esiste" parte out)

def main(url):
    con = httplib.HTTPConnection("www.cad-comic.com")
    con.request("GET", "/cad/" + url)
    r1 = con.getresponse()
    soup = BeautifulSoup(r1)
    img = soup.findAll("img")[1]
    nImg = str(img)
    imgSplit = re.split('"', nImg)
    imgUrl = imgSplit[1]
    if imgUrl.startswith('http://www.cad-comic.com/comics/'):
        MeOpans().retrieve(imgUrl, url + ".jpg")
        print "Downloaded " + url

"MeOpans ()" si presenta così:

class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow