سؤال

وأود أن تتبع delicious.com/popular تغذية RSS. ومع ذلك، في الآونة الأخيرة وهناك المزيد والمزيد من الصفحات الآسيوية في البنود. وبما أنني لا أفهم أي اللغات الآسيوية، أود أن تصفية بطريقة ما لهم من الأعلاف وإنقاذ نفسي بعض الوقت.

ولقد تم في محاولة لسلق شيء باستخدام أنابيب ياهو ، ولكن لم تكن قادرا للحصول على عمل.

وأي شخص أي أفكار كيفية جعل هذا العمل؟

هل كانت مفيدة؟

المحلول

ولقد كان بعض الحظ في http://pipes.yahoo. كوم / أنابيب / pipe.info؟ _ID = yJh1aRp_3hGaPi23tPvyrQ

المصدر من الأنابيب لديه كل المعلومات، ولكن هو الشيء الرئيسي تشغيل مرشح مع ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] التعابير المنطقية ~] + $ `.

وهذا سيقوم بتصفية أي الخلاصات التي تستخدم أي شيء ولكن ASCII القياسية في العنوان. للأسف، وهذا يعني أنه سيكون أيضا تصفية كلمات مثل "السيرة الذاتية"، ولكن يجب أن يكون من السهل جدا بالنسبة لك لضبط التعبير المعتاد لتشمل الشخصيات العامة غير الانجليزية من اللغات كما تعلمون.

نصائح أخرى

وربما كنت ترغب في تخطي الألقاب حيث يعيش أكثر من X٪ من الأحرف ليست من كتل التعليمات البرمجية المخصصة لمخطوطات من تلك اللغات التي يمكن أن نفهم. على سبيل المثال، إذا كنت لا تستطيع قراءة اليونانية، الروسية، العربية، العبرية والأرمنية والصينية واليابانية والكورية واللغات الهندية وغيرها، ورفض الألقاب حيث أكثر من (مثلا) 10٪ من الأحرف ليست في نطاق U + 0000 U + 0233. هذا يترك لك مع الأبجدية اللاتينية. فكرة ترك هامش مثل 10٪ للعلامات الترقيم. أيضا المواد التقنية قد تستخدم الرموز التي ليست في الأبجدية القاعدة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top