Comment l'algorithme de sujets tendances de Twitter décider quels mots à extraire de tweets?

StackOverflow https://stackoverflow.com/questions/1996008

Question

J'ai vu cette question , qui met l'accent sur le problème « Britney Spears ». Mais j'ai un peu une autre question. Comment doivent être classé ne l'algorithme détermine quels mots ou expressions? Par exemple, si j'envoie un tweet qui dit: « Michael Jackson est mort », comment savoir se retirer « Michael Jackson » mais pas « mort »?

Ou supposons que Alec Baldwin et Steven Baldwin étaient dans les nouvelles ce jour-là et donc ont tous deux été mentionnés dans un grand nombre de tweets. Comment serait-il savoir pour traiter les deux noms différemment au lieu de simplement tirer sur « Baldwin »?

Fait naïvement, je pouvais voir ce problème comme étant NP-complet (vous auriez à comparer toutes les phrases possibles dans le tweet avec toutes les phrases possibles dans les tweets de tout le monde).

Était-ce utile?

La solution

Une solution générale à ce problème est avec "terme, la fréquence de documents inverse "(tf-idf) .

Il est une approche statistique qui trouve des mots / termes qui sont plus pertinents que d'autres parce qu'ils ne sont pas vus très souvent. Dans ce cas, le nom « Michael Jackson » peut avoir une très faible fréquence par rapport à un mot anglais commun « est mort ».

Quant à la Baldwin Alec Baldwin contre Steven - ceux-ci seraient identifiés comme séparés pendant une partie du discours de marquage. - ils étiquetés comme des noms propres individuels

Autres conseils

Je crois qu'il cherche des ensembles de mots communs. Aussi, il semble qu'ils font référence http://www.whatthetrend.com/

En plus de cela, il pourrait y avoir une légère contrôle humain impliqué aussi.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top