سؤال
أريد جلب عنوان صفحة الويب التي أفتحها باستخدام Urllib2. ما هي أفضل طريقة للقيام بذلك، لتحليل HTML وابحث عن ما أحتاج إليه (في الوقت الحالي فقط، قد أحتاج إلى المزيد في المستقبل).
هل هناك تحليل جيد ليب لهذا الغرض؟
نصائح أخرى
يحاول حساء جميل:
url = 'http://www.example.com'
response = urllib2.urlopen(url)
html = response.read()
soup = BeautifulSoup(html)
title = soup.html.head.title
print title.contents
لماذا أنت تقوم يا رفاق باستيراد مكتبة إضافية كاملة لمهمة واحدة. لا تعبيرات منتظمة؟ لم يكن طلب Urllib ليس BS4 أو Mech وهو طرف ثالث؟ للقيام به مع المكتبات القياسية تحليل HTML ومطابقة السلسلة ثم تقسيم '>'
'<'
مع إعادة أو الوحشية.
N=(len(html))
for a in html(N):
if '<title>' in a:
Title=(str(a))
هذا بيثون 2 أعتقد، يمكنك تجريدها
يستخدم حساء جميل.
html = urllib2.urlopen("...").read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
print soup.title.string
لا تنتمي إلى StackOverflow