Pregunta

¿Cuáles son algunos buenos algoritmos para etiquetar automáticamente el texto con la ciudad / región u origen? Es decir, si un blog trata sobre Nueva York, ¿cómo puedo saberlo programáticamente? ¿Hay paquetes / documentos que afirman hacer esto con algún grado de certeza?

He mirado algunos enfoques basados ??en tfidf, intersecciones de nombres propios, pero hasta ahora, ningún éxito espectacular, ¡y agradecería las ideas!

La pregunta más general es sobre la asignación de textos a temas, dada una lista de temas.

Los enfoques simples / ingenuos prefieren los enfoques bayesianos completos, pero estoy abierto.

¿Fue útil?

Solución

Está buscando un sistema de reconocimiento de entidad con nombre , o NER corto . Hay varios bueno kits de herramientas disponibles para ayudarlo. LingPipe en particular tiene un tutorial decente . CAGEclass parece estar orientado a NER en nombres de lugares geográficos, pero aún no lo he usado.

Aquí un buen entrada de blog sobre las dificultades de NER con nombres de lugares geográficos.

Si vas con Java, te recomiendo usar las clases LingPipe NER. OpenNLP también tiene algunos, pero el primero tiene una mejor documentación.

Si está buscando algunos antecedentes teóricos, Chavez et al. (2005) han construido un sistema interesante y lo han documentado.

Otros consejos

El mapeo semántico latente parece ser un buen ajuste. Eso es casi tan ingenuo de un algoritmo como es probable que encuentre.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top