Domanda

Ho usato il Stanford recensione film dataset per la creazione di una sperimentazione di sentiment Analysis.

è riuscito a creare una domanda di base sulla parte superiore della Spark utilizzando l'algoritmo di classificazione Bayes Naive.

I passaggi che ho fatto per la pre-elaborazione dalla scintilla ML gasdotto

  • Tokenizzazione
  • bigrammi

L'insieme di dati disponibile sopra ha anche un set di dati di test con se stessa che è separata del training set. Dopo l'allenamento che ho ottenuto circa il 97% di precisione che credo sia abbastanza buona per Naive Bayes.

Ora posso usare questo modello ML per prevedere per altri testi come email / chat, ecc, La mia ipotesi è che questo insieme di dati ha una grande collezione di abbastanza parole per eseguire buone previsioni e certe parole inglesi a prescindere dal contesto business come "non mi piace questo", "questo non sta bene" è la stessa in domini diversi, come Film / email / chat, ecc

Non ho fatto l'esperimento in quanto i dati che ho bisogno di entrare in possesso di appartiene al cliente ed a causa di restrizioni sulla privacy, non siamo in grado di accedere ai dati.

Qualsiasi aiuto / consiglio sarebbe molto apprezzato.

È stato utile?

Soluzione

Dipende.

Si sta praticamente chiedendo se il vostro campione (dati di allenamento) è rappresentativo della popolazione (tutte le parole scritte).

  1. State facendo sentiment analysis su recensioni di film? Sarà grande lavoro.
  2. State facendo sentiment analysis su recensioni TV? E 'probabilmente grande lavoro.
  3. State facendo sentiment analysis su recensioni di libri? Darei meglio di 50-50 probabilità che funzioni.
  4. State facendo sentiment analysis sul post di Twitter? Ora stiamo ottenendo traballante. Le persone tendono a scrivere molto meno, l'uso del linguaggio meno formale, e utilizzare più emoji che tua opinione modello film non si sarebbe visto.

Detto questo, ci sono sicuramente i servizi sentiment analysis "generiche" come qui . Provate il vostro modello contro Algorithmia su quello che si potrebbe prendere in considerazione un insieme generico di dati (ad esempio un gruppo di tweets ) e vedere come si fa.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top