Python Script لتنزيل جميع CTRL + ALT + DEL Webcomics؟ [مغلق

https://stackoverflow.com/questions/1183111

19-09-2019
|

سؤال

هل لدى أي شخص واحد؟ حاول إيف كوميكاللأندر ولكن هذا يتيح لي فقط تنزيل أحدث الهزلي وأنا لا أفهم بيثون جيدا بما يكفي لمعرفة كيفية تغييره لتحميل جميع الهزلي

المحلول

حسنا، إنها ليست بيثون والطريقة ليست أنيقة جدا أيضا ولكن سيعمل.

بعد تفتيش موجز لل CTRL + ALT + DEL أرشيف الموقع لقد وجدت أن كل كاريكاتير يتم تخزينها في / كاريكاتير / كملفات JPG.

مع هذا الافتراض، سيتم تشغيل الأمر التالي في آلة Shell على آلة * Nix. من الواضح أن أسماء الملفات تواريخ في التنسيق YyyyMMDD.

$ for filename in $(seq 20020101 20090726); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done

أوه، وقد يستغرق بعض الوقت :).

نصائح أخرى

حسنا، هناك العديد من الأساليب. يمكنك إلقاء نظرة على عناوين URL من الصور الهزلية نفسها، لمعرفة ما إذا كانت تتبع النمط، اكتب نص صغير لإنشاء عناوين URL التي تتطابق مع النمط، واستخدام ما عليك سوى استخدام Wget أو شيء مشابه لتنزيلها. لتعلم الثعبان المطلوب، أوصي بيثون التعليمي. وبعد انظر على وجه التحديد إلى طرق الجمع بين السلاسل وتنسيق السلسلة وعمليات السلسلة، بحيث يمكنك إنشاء عناوين URL الخاصة بك من سلاسل المكونات والأرقام وما إلى ذلك. قد يكون هذا النوع من المشروع عذرا جيدا لتعلم بيثون، والذي من المحتمل أن يساعدك في أشياء أخرى في المستقبل. (ومتعة!)

بدلا من ذلك، أتصور أن الناس قد فعلوا ذلك من قبل - بالتأكيد هناك بالتأكيد تطبيقات هناك ما الذي تريده، أو إعطاء عناوين URL للصور، أو مجرد نمط عناوين URL. إلقاء نظرة حولها.

يمكنك الكتابة إلى مؤلف الكوميدي واسأل عما إذا كانت متوفرة بكميات كبيرة بطريقة أو بأخرى، ربما للشراء، ربما ككتاب. أتصور Ctrl-Alt-del شائعة بما فيه الكفاية لامتصاص الحمل المضافة لك ببساطة قم بتنزيل الأرشيف بأكمله، لكن مواقع الويب الصغيرة قد لا تقدرها - رغم أنني لا أعتقد أنهم يمكن أن يمنعونك حقا أو أي شيء.

بالنسبة لسؤالك، يجب أن يساعدك هذا الموقع في أسئلة البرمجة الخاصة بك، وتساعدك في مشاكل في وجودك، مما دفعك إلى الطريق - لكن معظمهم لا يقدرون ذلك إذا طلبت منهم كتابة التعليمات البرمجية الخاصة بك فقط. تعلم بعض الثعبان، جربها بنفسك، إذا واجهت أي مشاكل، اسأل ثم.

يمكنني استخدام Urllib مع وكيل مستخدم معدلة (نظرا لأن Timmy منعت الأصل) وجمالته الجميلة. على أي حال، هيريس مولد التاريخ:

t1 = datetime.date(2002, 10, 22)
t2 = datetime.date.today()
while t2 > t1:
    t1 = t1 + datetime.date.resolution
    toon = t1.strftime("%Y%m%d")
    url1 = str(toon)
    main(url1)

وجهازي (): يبدو وكأنه هذا (استغرق "التحقق مما إذا كان الملف موجود" جزء خارج)

def main(url):
    con = httplib.HTTPConnection("www.cad-comic.com")
    con.request("GET", "/cad/" + url)
    r1 = con.getresponse()
    soup = BeautifulSoup(r1)
    img = soup.findAll("img")[1]
    nImg = str(img)
    imgSplit = re.split('"', nImg)
    imgUrl = imgSplit[1]
    if imgUrl.startswith('http://www.cad-comic.com/comics/'):
        MeOpans().retrieve(imgUrl, url + ".jpg")
        print "Downloaded " + url

"موبانز ()" يشبه هذا:

class MeOpans(urllib.URLopener):
    version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow