Comment l'algorithme de sujets tendances de Twitter décider quels mots à extraire de tweets?
Question
J'ai vu cette question , qui met l'accent sur le problème « Britney Spears ». Mais j'ai un peu une autre question. Comment doivent être classé ne l'algorithme détermine quels mots ou expressions? Par exemple, si j'envoie un tweet qui dit: « Michael Jackson est mort », comment savoir se retirer « Michael Jackson » mais pas « mort »?
Ou supposons que Alec Baldwin et Steven Baldwin étaient dans les nouvelles ce jour-là et donc ont tous deux été mentionnés dans un grand nombre de tweets. Comment serait-il savoir pour traiter les deux noms différemment au lieu de simplement tirer sur « Baldwin »?
Fait naïvement, je pouvais voir ce problème comme étant NP-complet (vous auriez à comparer toutes les phrases possibles dans le tweet avec toutes les phrases possibles dans les tweets de tout le monde).
La solution
Une solution générale à ce problème est avec "terme, la fréquence de documents inverse "(tf-idf) .
Il est une approche statistique qui trouve des mots / termes qui sont plus pertinents que d'autres parce qu'ils ne sont pas vus très souvent. Dans ce cas, le nom « Michael Jackson » peut avoir une très faible fréquence par rapport à un mot anglais commun « est mort ».
Quant à la Baldwin Alec Baldwin contre Steven - ceux-ci seraient identifiés comme séparés pendant une partie du discours de marquage. - ils étiquetés comme des noms propres individuels
Autres conseils
Je crois qu'il cherche des ensembles de mots communs. Aussi, il semble qu'ils font référence http://www.whatthetrend.com/
En plus de cela, il pourrait y avoir une légère contrôle humain impliqué aussi.