Question

J'ai utilisé le jeu de données stanford critique de film pour créer une expérimentation de analyse le sentiment.

a réussi à créer une application de base au-dessus de Spark en utilisant l'algorithme de classification Naïf de Bayes.

Les étapes que je l'ai fait pour le prétraitement de l'étincelle pipeline ML

  • Tokenisation
  • bigrams

L'ensemble des données fournies ci-dessus dispose également d'un ensemble de données de test avec lui-même qui est séparé de l'ensemble de la formation. Après la formation, je suis précision autour de 97%, ce qui je crois est assez bon pour Naive Bayes.

Maintenant je peux utiliser ce modèle ML pour prévoir d'autres textes tels que le courrier électronique / le chat, etc., je suppose que cet ensemble de données a une assez grande collection de mots pour faire de bonnes prédictions et certains mots anglais quel que soit le contexte d'affaires comme « Je ne aime pas ça », « cela ne semble pas bon » est le même dans différents domaines tels que les films / e-mails / etc Causeries

Je n'ai pas fait l'expérience puisque les données que je dois mettre la main sur Appartient au client et en raison des restrictions de confidentialité, nous ne pouvons pas accéder aux données.

Toute aide / serait très apprécié des conseils.

Était-ce utile?

La solution

Cela dépend.

Vous demandez essentiellement si votre échantillon (données de formation) est représentatif de la population (tous les mots écrits).

  1. faites l'analyse des sentiments vous sur les critiques de films? Ça va travailler beaucoup.
  2. faites l'analyse des sentiments vous sur les commentaires TV? Ce sera probablement excellent travail.
  3. faites l'analyse des sentiments vous sur les critiques de livres? Je donnerais mieux que 50-50 chances que ça va marcher.
  4. faites l'analyse des sentiments vous sur Twitter les messages? Maintenant, nous recevons fragile. Les gens ont tendance à écrire beaucoup moins, utiliser un langage moins formel, et utiliser plus emojis que votre modèle d'examen du film aurait pas vu.

Cela étant dit, il y a certainement des services d'analyse de sentiment "génériques" comme . Essayez votre modèle contre Algorithmia sur ce que vous considérez comme un ensemble générique de données (par exemple un groupe de tweets ) et voir comment il fait.

Licencié sous: CC-BY-SA avec attribution
scroll top