بيثون جلب <العنوان>

https://stackoverflow.com/questions/1660302

11-09-2019
|

سؤال

أريد جلب عنوان صفحة الويب التي أفتحها باستخدام Urllib2. ما هي أفضل طريقة للقيام بذلك، لتحليل HTML وابحث عن ما أحتاج إليه (في الوقت الحالي فقط، قد أحتاج إلى المزيد في المستقبل).

هل هناك تحليل جيد ليب لهذا الغرض؟

المحلول

نعم أود أن أوصى جميلة

إذا كنت تحصل على العنوان، فهذا ببساطة:

soup = BeautifulSoup(html)
myTitle = soup.html.head.title

أو

myTitle = soup('title')

مأخوذ من وثائق

انها قوية جدا وسوف تحليل HTML بغض النظر عن كيف هو فوضوي.

نصائح أخرى

يحاول حساء جميل:

url = 'http://www.example.com'
response = urllib2.urlopen(url)
html = response.read()

soup = BeautifulSoup(html)
title = soup.html.head.title
print title.contents

لماذا أنت تقوم يا رفاق باستيراد مكتبة إضافية كاملة لمهمة واحدة. لا تعبيرات منتظمة؟ لم يكن طلب Urllib ليس BS4 أو Mech وهو طرف ثالث؟ للقيام به مع المكتبات القياسية تحليل HTML ومطابقة السلسلة ثم تقسيم '>' '<' مع إعادة أو الوحشية.

N=(len(html))
for a in html(N):
    if '<title>' in a:
        Title=(str(a))

هذا بيثون 2 أعتقد، يمكنك تجريدها

يستخدم حساء جميل.

html = urllib2.urlopen("...").read()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
print soup.title.string

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow