comment filtrer la langue asiatique à partir d'un flux RSS?

https://stackoverflow.com/questions/1217505

10-07-2019
|

Question

J'aime suivre le delicious.com/popular fil RSS. Cependant, dernièrement, les pages contiennent de plus en plus de pages asiatiques. Étant donné que je ne comprends pas les langues asiatiques, j'aimerais en quelque sorte les filtrer du flux et me faire gagner du temps.

J'ai essayé de concocter quelque chose avec Yahoo tubes , mais je n'ai pas pu le faire. pour le faire fonctionner.

Quelqu'un a-t-il des idées sur la manière de faire fonctionner ce projet?

La solution

J'ai eu un peu de chance à http://pipes.yahoo. com / pipes / pipe.info? _id = yJh1aRp_3hGaPi23tPvyrQ

La source du tube contient toutes les informations, mais le bit clé exécute un filtre avec l'expression régulière ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*-_=\+;:<>\/\\\|\}\{\[\] ~] + $ `.

Ceci filtrera tous les flux qui utilisent autre chose que du code ASCII standard dans le titre. Malheureusement, cela signifie qu'il filtrera également des mots tels que & Quot; r & # 233; sum & # 233;, & Quot; mais il devrait être assez facile pour vous d’ajuster la regex afin d’inclure des caractères non anglais courants dans les langues que vous connaissez.

Autres conseils

Vous voudrez probablement ignorer les titres pour lesquels plus de X% des caractères ne sont PAS issus des blocs de code attribués aux scripts de ces langues que vous pouvez comprendre. Par exemple, si vous ne savez pas lire le grec, le russe, l'arabe, l'hébreu, l'arménien, le chinois, le japonais, le coréen, les langues indiennes, etc., refusez les titres dont plus de 10% des caractères ne sont pas compris entre U + 0000 et U + 0233. Cela vous laisse avec l'alphabet latin. L'idée de laisser une marge telle que 10% concerne les signes de ponctuation; les articles techniques peuvent également utiliser des symboles qui ne sont pas dans l'alphabet de base.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow