كيفية مسح صفحة ويب، والحصول على صور ويوتيوب يضمن؟

StackOverflow https://stackoverflow.com/questions/271855

سؤال

وأنا بناء تطبيق ويب حيث كنت بحاجة للحصول على جميع الصور وأي ملفات فيديو فلاش المضمنة (مثل يوتيوب) على URL معين. أنا باستخدام بيثون.

ولقد غوغليد، ولكن لم يتم العثور على أي معلومات جيدة عن هذا (ربما لأنني لا أعرف ما يسمى هذا للبحث عن)، هل لديها أي خبرة مع هذا ويعرف كيف يمكن القيام به؟

وأنا أحب أن أرى بعض أمثلة التعليمات البرمجية إذا كان هناك أي المتاحة.

وشكرا!

هل كانت مفيدة؟

المحلول

BeautifulSoup هي مكتبة تجريف شاشة كبيرة. استخدام urllib2 لجلب الصفحة، وBeautifulSoup تحليل إربا. وفيما يلي نموذج التعليمات البرمجية من مستندات بها:

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
    where, linebreak, what = incident.contents[:3]
    print where.strip()
    print what.strip()
    print
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top