1 millón de frases de ahorrar en el DB - la eliminación de las palabras no relevantes en inglés

https://stackoverflow.com/questions/4259044

27-09-2019
|

Pregunta

Estoy tratando de entrenar a un clasificador bayesiano con palabras positivas / negativas extracción de un sentimiento. ejemplo:

Me encanta esta película :))

No me gusta cuando llueve :(

La idea es que extraigo frases positivas o negativas, sobre la base de los emoctions utilizados, pero con el fin de entrenar a un clasificador y persistir en la base de datos.

El problema es que tengo más de 1 millón de estas frases, por lo que si entreno palabra por palabra, la base de datos va a ir para una sacudida. Quiero eliminar toda palabra ejemplo no relevante 'I', 'este', 'cuándo', 'eso' de manera que el número de veces que tiene que hacer una consulta de base de datos es menor.

Por favor me ayude a resolver este problema para mí sugerir mejores maneras de hacerlo

Gracias

Solución

Es posible que desee comprobar esto http://books.google.com/books?id=CE1QzecoVf4C&lpg=PA390&ots=OHuYwLRhag&dq=sentiment%20%20mining%20for%20fortune%20500&pg=PA379#v=onepage&q = sentimiento% 20% 20mining% 20for% 20fortune% 20 500 & f = false

Otros consejos

Hay dos enfoques comunes:

.
POS las frases y tire aquellas partes del discurso que cree que no se interesante.

En ambos casos, la determinación de que las palabras / etiquetas POS son pertinentes pueden hacer uso de una medida como la PMI .

Eso sí: las listas de parada estándar de recuperación de información puede o no puede trabajar en el análisis de opiniones. Hace poco leí un artículo (sin referencia, lo siento), donde se afirmó que! y?, comúnmente eliminado en los buscadores, son pistas valiosas para el análisis de opiniones. (Así mayo 'I', esp. Si tiene también una categoría neutra.)

Editar : rel también se puede tirar con seguridad lejos de todo lo que ocurre sólo una vez en el conjunto de entrenamiento (llamado hapax hapax ). Palabras que se producen una vez que tienen poco valor de la información para su clasificador, pero pueden tardar hasta un montón de espacio.

Para reducir la cantidad de datos recuperados de la base de datos, se puede crear en su base de datos de un diccionario - una tabla que asigna palabras a los números * ** - y de recuperar sólo un vector de número para el entrenamiento y una oración completa para el manual marcando un sentimiento.

| * Ninguna publicación científica viene a la mente, pero tal vez es suficiente para utilizar solamente tallos o lemas en lugar de palabras. Se reduciría el tamaño del diccionario.

| ** Si esta operación mata a su base de datos, puede crear un diccionario en una aplicación local - que utiliza un motor de indexación de texto (por ejemplo, Apache Lucene) - y almacenar únicamente el resultado en su base de datos.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow