Question

Quels sont les bons algorithmes pour l’étiquetage automatique de texte avec la ville / région ou l’origine? Autrement dit, si un blog parle de New York, comment puis-je en parler par programmation? Y at-il des paquets / papiers qui prétendent le faire avec un certain degré de certitude?

J'ai examiné certaines approches basées sur tfidf, des intersections nominales correctes, mais jusqu'à présent, aucune réussite spectaculaire et j'apprécierais des idées!

La question plus générale concerne l’affectation de textes à des sujets, à partir d’une liste de sujets.

Les approches simples / naïves préfèrent les approches complètes sur les approches bayésiennes, mais je suis ouvert.

Était-ce utile?

La solution

Vous recherchez un système de reconnaissance d'entité nommée , ou un NER court . Il existe plusieurs bon trousses à outils disponibles pour vous aider. LingPipe, en particulier, contient un didacticiel décent . CAGEclass semble être orienté vers NER sur les noms de lieux géographiques, mais je ne l'ai pas encore utilisé.

En voici un article de blog sur les difficultés du TNS avec les noms de lieux géographiques.

Si vous utilisez Java, nous vous recommandons d’utiliser les classes LingPipe NER. OpenNLP en a aussi, mais le premier a une meilleure documentation.

Si vous recherchez des connaissances théoriques, Chavez et al. (2005) ont construit un syntaxe intéressant et l'ont documenté.

Autres conseils

La

la cartographie sémantique latente semble être un bon choix. C'est à peu près aussi naïf d'un algorithme que vous êtes susceptible de trouver.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top