¿Cómo filtrar el idioma asiático de una fuente RSS?

https://stackoverflow.com/questions/1217505

10-07-2019
|

Pregunta

Me gusta hacer un seguimiento de delicious.com/popular feed RSS. Sin embargo, últimamente hay más y más páginas asiáticas en los elementos. Como no entiendo ningún idioma asiático, me gustaría filtrarlos de alguna manera del feed y ahorrarme algo de tiempo.

He intentado cocinar algo usando Yahoo pipes , pero no he podido para que funcione.

¿Alguien tiene alguna idea de cómo hacer que esto funcione?

Solución

He tenido suerte en http://pipes.yahoo. com / pipes / pipe.info? _id = yJh1aRp_3hGaPi23tPvyrQ

La fuente de la tubería tiene toda la información, pero el bit clave está ejecutando un filtro con la expresión regular ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*-_=\+;:<>\/\\\|\}\{\[\] ~] + $ `.

Esto filtrará cualquier fuente que use cualquier cosa menos ASCII estándar en el título. Desafortunadamente, esto significa que también filtrará palabras como & Quot; r & # 233; sum & # 233;, & Quot; pero debería ser bastante fácil para usted ajustar la expresión regular para incluir caracteres comunes que no estén en inglés de los idiomas que conoce.

Otros consejos

Probablemente desee omitir títulos en los que más del X% de los caracteres NO procedan de los bloques de código asignados a los scripts de esos idiomas que pueda comprender. Por ejemplo, si no puede leer griego, ruso, árabe, hebreo, armenio, chino, japonés, coreano, idiomas índicos, etc., rechace los títulos en los que más del (10%) de los caracteres no están en el rango U + 0000 a U + 0233. Esto te deja con el alfabeto latino. La idea de dejar un margen como 10% es para los signos de puntuación; También los artículos técnicos pueden usar símbolos que no están en el alfabeto base.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow