come filtrare la lingua asiatica da un feed RSS?
-
10-07-2019 - |
Domanda
Mi piace tenere traccia di delicious.com/popular feed RSS. Tuttavia, ultimamente ci sono sempre più pagine asiatiche negli articoli. Dal momento che non capisco nessuna lingua asiatica, vorrei in qualche modo filtrarli dal feed e risparmiare un po 'di tempo.
Ho provato a cucinare qualcosa usando tubi Yahoo , ma non sono stato in grado per farlo funzionare.
Qualcuno ha qualche idea su come farlo funzionare?
Soluzione
Ho avuto un po 'di fortuna a http://pipes.yahoo. com / conduttori / pipe.info? _ID = yJh1aRp_3hGaPi23tPvyrQ
La sorgente della pipe ha tutte le informazioni, ma il bit della chiave sta eseguendo un filtro con la regex ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]
~] + $ `.
Questo filtrerà tutti i feed che usano qualsiasi cosa tranne ASCII standard nel titolo. Sfortunatamente, questo significa che filtrerà anche parole come & Quot; r & # 233; sum & # 233;, & Quot; ma dovrebbe essere abbastanza facile per te regolare la regex per includere caratteri non inglesi comuni dalle lingue che conosci.
Altri suggerimenti
Probabilmente vuoi saltare titoli in cui oltre l'X% dei caratteri NON proviene dai blocchi di codice assegnati agli script di quelle lingue che puoi capire. Ad esempio, se non riesci a leggere il greco, il russo, l'arabo, l'ebraico, l'armeno, il cinese, il giapponese, il coreano, le lingue indiane ecc., Rifiuta i titoli in cui più del (diciamo) il 10% dei caratteri non è compreso tra U + 0000 e U + 0233. Questo ti lascia con l'alfabeto latino. L'idea di lasciare un margine del 10% è per i segni di punteggiatura; anche gli articoli tecnici possono utilizzare simboli che non sono presenti nell'alfabeto di base.