Pergunta

Eu gosto de acompanhar delicioso.com/popular Feed RSS. No entanto, ultimamente há mais e mais páginas asiáticas nos itens. Como não entendo nenhum idioma asiático, gostaria de filtrá -los de alguma forma do feed e me economizar algum tempo.

Eu tenho tentado preparar algo usando Pipes do Yahoo, mas não consegui fazê -lo funcionar.

Alguém alguma idéia de como fazer isso funcionar?

Foi útil?

Solução

Eu tive alguma sorte em http://pipes.yahoo.com/pipes/pipe.info?_id=yjh1arp_3hgapi23tpvyrq

A fonte do tubo tem todas as informações, mas o bit de chave está executando um filtro com o regex ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]~]+$`.

Isso filtrará quaisquer feeds que usem qualquer coisa, exceto ASCII padrão no título. Infelizmente, isso significa que também filtrará palavras como "currículo", mas deve ser muito fácil ajustar o Regex para incluir caracteres comuns não ingleses dos idiomas que você conhece.

Outras dicas

Você provavelmente deseja pular títulos, onde mais de X% dos caracteres não são dos blocos de código atribuídos aos scripts dos idiomas que você pode entender. Por exemplo, se você não sabe ler grego, russo, árabe, hebraico, armênio, chinês, japonês, coreano, idiomas indicadores etc. U+0233. Isso deixa você com o alfabeto latino. A idéia de deixar uma margem como 10% é para marcas de pontuação; Além disso, os artigos técnicos podem usar símbolos que não estão no alfabeto base.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top