Pregunta

Ya he hecho una pregunta similar antes, pero he notcied que tengo gran restricción: estoy trabajando en pequeños conjuntos suchs de texto como los tweets de los usuarios para generar etiquetas (palabras clave)

.

Y parece que la sugerencia aceptada (algoritmo de información mutua punto en cuanto a) tiene la intención de trabajar con documentos grandes.

Con esta restricción (trabajando en conjunto pequeño de textos), ¿cómo puedo generar etiquetas?

Regards

¿Fue útil?

Solución

Enfoque de dos etapas para multipalabras etiquetas

podría en común todos los tweets en un solo documento grande y luego extraer el n colocaciones más interesantes de toda la colección de tweets. A continuación, puede volver atrás y etiqueta de cada tweet con las colocaciones que se producen en ella. Con este enfoque, n sería el número total de etiquetas de varias palabras que se generarían para todo el conjunto de datos.

En la primera etapa, se puede utilizar el código NLTK publicada aquí . La segunda etapa se podría lograr con un simple bucle sobre todos los tweets. Sin embargo, si la velocidad es una preocupación, usted podría utilizar PyLucene para encontrar rápidamente los tweets que contienen cada uno la función de proximidad .

Tweet Nivel PMI de Palabra en las etiquetas

Como también se sugirió aquí , Para las etiquetas de una sola palabra , se puede calcular el punto en cuanto a la información mutua de cada palabra individual y el propio tweet, es decir,

PMI(term, tweet) = log [ P(term, tweet) / (P(term)*P(tweet)) 

Una vez más, esto será más o menos le dirá cuánto menos (o más) son sorprendidos a venir a través del término en el documento específico como aproximar a venir a través de ella en la colección más grande. A continuación, podría etiquetar el tweet con unos términos que tienen la más alta PMI con el tweet.

Cambios generales para Tweets

Algunos de los cambios que usted podría querer tomar para etiquetar con los tweets incluyen:

  • Sólo utilice una palabra o colocación como una etiqueta para un pío, si se produce dentro de un cierto número o porcentaje de otros ecotweets . De lo contrario, el PMI tenderá a los tweets con la etiqueta términos impares que se producen en un solo tuit, pero que no se ven en ningún otro lugar, por ejemplo, faltas de ortografía y ruido del teclado como @ # $ @ # $% !.

  • Escala el número de etiquetas que se utilizan con la longitud de cada tweet. Usted puede ser capaz de extraer 2 o 3 etiquetas interesantes tweets más largos. Pero, por otra más corta 2 palabra tweet, es probable que no desea utilizar cada palabra y la colocación de la etiqueta que . Probablemente vale la pena experimentar con diferentes puntos de corte para el número de etiquetas que desea extraer dada la longitud tweet.

Otros consejos

he utilizado un método anterior, por el contenido del texto pequeño, como mensajes SMS, donde yo sólo tiene que repetir la misma línea dos veces. Sorprendentemente, que funciona bien para dicho contenido en un sustantivo bien podría ser el tema. Me refiero a que no lo necesita repetir para que sea el tema.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top