سؤال

في مصدر صفحة الويب أستطيع أن أرى كلمة مثل: ABAC٪ C3٪ A0 التي تظهر المتصفح (Chrome) ك Abacà.
الآن، قمت بتنزيل الصفحة باستخدام Urllib2 وأنا أقنع مصدر الصفحة مع Python (2.7 على Mac OS X) للحصول على بعض الكلمات الرئيسية: أود الحصول على الحرف المعالم بدلا من٪ C3٪ A0 ولكن باستخدام Str.Decode("UTF8") لم تنجح (حاولت أنه نظرا لأن تلك بدا وكأنها رموز \ XC3 \ XA0 UTF8).

ماذا يجب أن أحاول إضافة الكلمة المعلمة داخل القاموس؟

بالمناسبة لصفحة HTML ليس لها إشارة إلى الترميز على الإطلاق في المصدر

شكرا

هل كانت مفيدة؟

المحلول

كانت الشخصيات مشفرة URL (هل هي جزء من عنوان URL؟)، والتي يمكنك التراجع عن استخدام orllib.unquote .

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top