Domanda

Mi piace tenere traccia di delicious.com/popular feed RSS. Tuttavia, ultimamente ci sono sempre più pagine asiatiche negli articoli. Dal momento che non capisco nessuna lingua asiatica, vorrei in qualche modo filtrarli dal feed e risparmiare un po 'di tempo.

Ho provato a cucinare qualcosa usando tubi Yahoo , ma non sono stato in grado per farlo funzionare.

Qualcuno ha qualche idea su come farlo funzionare?

È stato utile?

Soluzione

Ho avuto un po 'di fortuna a http://pipes.yahoo. com / conduttori / pipe.info? _ID = yJh1aRp_3hGaPi23tPvyrQ

La sorgente della pipe ha tutte le informazioni, ma il bit della chiave sta eseguendo un filtro con la regex ^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] ~] + $ `.

Questo filtrerà tutti i feed che usano qualsiasi cosa tranne ASCII standard nel titolo. Sfortunatamente, questo significa che filtrerà anche parole come & Quot; r & # 233; sum & # 233;, & Quot; ma dovrebbe essere abbastanza facile per te regolare la regex per includere caratteri non inglesi comuni dalle lingue che conosci.

Altri suggerimenti

Probabilmente vuoi saltare titoli in cui oltre l'X% dei caratteri NON proviene dai blocchi di codice assegnati agli script di quelle lingue che puoi capire. Ad esempio, se non riesci a leggere il greco, il russo, l'arabo, l'ebraico, l'armeno, il cinese, il giapponese, il coreano, le lingue indiane ecc., Rifiuta i titoli in cui più del (diciamo) il 10% dei caratteri non è compreso tra U + 0000 e U + 0233. Questo ti lascia con l'alfabeto latino. L'idea di lasciare un margine del 10% è per i segni di punteggiatura; anche gli articoli tecnici possono utilizzare simboli che non sono presenti nell'alfabeto di base.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top