سؤال

أريد جلب عنوان صفحة الويب التي أفتحها باستخدام Urllib2. ما هي أفضل طريقة للقيام بذلك، لتحليل HTML وابحث عن ما أحتاج إليه (في الوقت الحالي فقط، قد أحتاج إلى المزيد في المستقبل).

هل هناك تحليل جيد ليب لهذا الغرض؟

هل كانت مفيدة؟

المحلول

نعم أود أن أوصى جميلة

إذا كنت تحصل على العنوان، فهذا ببساطة:

soup = BeautifulSoup(html)
myTitle = soup.html.head.title

أو

myTitle = soup('title')

مأخوذ من وثائق

انها قوية جدا وسوف تحليل HTML بغض النظر عن كيف هو فوضوي.

نصائح أخرى

يحاول حساء جميل:

url = 'http://www.example.com'
response = urllib2.urlopen(url)
html = response.read()

soup = BeautifulSoup(html)
title = soup.html.head.title
print title.contents

لماذا أنت تقوم يا رفاق باستيراد مكتبة إضافية كاملة لمهمة واحدة. لا تعبيرات منتظمة؟ لم يكن طلب Urllib ليس BS4 أو Mech وهو طرف ثالث؟ للقيام به مع المكتبات القياسية تحليل HTML ومطابقة السلسلة ثم تقسيم '>' '<' مع إعادة أو الوحشية.

N=(len(html))
for a in html(N):
    if '<title>' in a:
        Title=(str(a))

هذا بيثون 2 أعتقد، يمكنك تجريدها

يستخدم حساء جميل.

html = urllib2.urlopen("...").read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
print soup.title.string
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top