Вопрос

Мне нравится отслеживать tasty.com/popular RSS-ленту. Однако в последнее время в статьях появляется все больше азиатских страниц. Поскольку я не понимаю никаких азиатских языков, я бы хотел как-то отфильтровать их от канала и сэкономить время.

Я пытался что-то приготовить, используя каналы Yahoo , но не смог чтобы заставить его работать.

У кого-нибудь есть идеи, как заставить это работать?

Это было полезно?

Решение

Мне повезло в http://pipes.yahoo. ком / трубы / pipe.info? _id = yJh1aRp_3hGaPi23tPvyrQ

Источник канала содержит всю информацию, но бит ключа запускает фильтр с регулярным выражением ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] ~] + $ `.

Это отфильтрует все каналы, которые используют в заголовке что-либо кроме стандартного ASCII. К сожалению, это означает, что он также будет фильтровать такие слова, как & Quot; r & # 233; sum & # 233;, & Quot; но вам должно быть довольно легко настроить регулярное выражение так, чтобы оно включало обычные неанглийские символы из языков, которые вы знаете.

Другие советы

Возможно, вы захотите пропустить заголовки, в которых более X% символов НЕ находятся в кодовых блоках, назначенных сценариям тех языков, которые вы можете понять. Например, если вы не можете читать греческий, русский, арабский, иврит, армянский, китайский, японский, корейский, индийский языки и т. Д., Отклоните заголовки, если более (скажем) 10% символов не находятся в диапазоне от U + 0000 до U + 0233. Это оставляет вас с латинским алфавитом. Идея оставить маржу в 10% для знаков препинания; также технические статьи могут использовать символы, которых нет в основном алфавите.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top