Frage

Ich habe das benutzt Stanford Movie Review -Datensatz zum Erstellen eines Experimentierens der Stimmungsanalyse.

Es wurde geschafft, mit dem Naive Bayes -Klassifizierungsalgorithmus eine grundlegende Anwendung über Spark zu erstellen.

Schritte, die ich für die Vorverarbeitung vom Funken gemacht habe ML Pipeline

  • Tokenisierung
  • Bigrams

Der angegebene Datensatz oben verfügt auch über einen Testdatensatz mit sich selbst, der vom Trainingssatz getrennt ist. Nach dem Training bekam ich ungefähr 97% Genauigkeit, was meiner Meinung nach ziemlich gut für naive Bayes ist.

Kann ich dieses ML -Modell nun verwenden, um andere Texte wie E -Mail/Chat usw. vorherzusagen. Ich vermute, dass dieser Datensatz eine ausreichend große Sammlung von Wörtern hat, um gute Vorhersagen und bestimmte englische Wörter auszuführen, unabhängig vom geschäftlichen Kontext wie "Ich nicht Wie dieses "sieht dies nicht gut aus" ist für verschiedene Domänen wie Filme/E -Mails/Chats usw. gleich.

Ich habe das Experiment nicht mehr durchgeführt, da die Daten, die ich benötigt, um den Kunden zu erreichen, und aufgrund von Datenschutzbeschränkungen nicht auf die Daten zugreifen können.

Jede Hilfe/Anleitung wäre sehr geschätzt.

War es hilfreich?

Lösung

Es hängt davon ab, ob.

Sie fragen sich im Grunde, ob Ihr Beispiel (Trainingsdaten) für die Bevölkerung repräsentativ ist (alle schriftlichen Wörter).

  1. Machen Sie eine Stimmungsanalyse zu Filmkritiken? Es wird großartig funktionieren.
  2. Machen Sie eine Stimmungsanalyse in TV -Bewertungen? Es wird wahrscheinlich großartig funktionieren.
  3. Machen Sie eine Stimmungsanalyse zu Buchbesprechungen? Ich würde besser als 50-50 Chancen geben, dass es funktionieren wird.
  4. Machen Sie eine Stimmungsanalyse auf Twitter -Posts? Jetzt werden wir wackelig. Die Leute neigen dazu, viel weniger zu schreiben, weniger formale Sprache zu verwenden und mehr Emojis zu verwenden, die Ihr Filmbewertungsmodell nicht gesehen hätte.

Davon abgesehen gibt es definitiv "generische" Stimmungsanalysedienste wie hier. Probieren Sie Ihr Modell gegen Algorithmie aus, was Sie als generische Datenmenge betrachten würden (z. B. eine Menge von von Tweets) und sehen, wie es geht.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top