Possono insiemi di dati generici essere adatto per l'analisi specifica sentiment
-
22-10-2019 - |
Domanda
Ho usato il Stanford recensione film dataset per la creazione di una sperimentazione di sentiment Analysis.
è riuscito a creare una domanda di base sulla parte superiore della Spark utilizzando l'algoritmo di classificazione Bayes Naive.
I passaggi che ho fatto per la pre-elaborazione dalla scintilla ML gasdotto
- Tokenizzazione
- bigrammi
L'insieme di dati disponibile sopra ha anche un set di dati di test con se stessa che è separata del training set. Dopo l'allenamento che ho ottenuto circa il 97% di precisione che credo sia abbastanza buona per Naive Bayes.
Ora posso usare questo modello ML per prevedere per altri testi come email / chat, ecc, La mia ipotesi è che questo insieme di dati ha una grande collezione di abbastanza parole per eseguire buone previsioni e certe parole inglesi a prescindere dal contesto business come "non mi piace questo", "questo non sta bene" è la stessa in domini diversi, come Film / email / chat, ecc
Non ho fatto l'esperimento in quanto i dati che ho bisogno di entrare in possesso di appartiene al cliente ed a causa di restrizioni sulla privacy, non siamo in grado di accedere ai dati.
Qualsiasi aiuto / consiglio sarebbe molto apprezzato.
Soluzione
Dipende.
Si sta praticamente chiedendo se il vostro campione (dati di allenamento) è rappresentativo della popolazione (tutte le parole scritte).
- State facendo sentiment analysis su recensioni di film? Sarà grande lavoro.
- State facendo sentiment analysis su recensioni TV? E 'probabilmente grande lavoro.
- State facendo sentiment analysis su recensioni di libri? Darei meglio di 50-50 probabilità che funzioni.
- State facendo sentiment analysis sul post di Twitter? Ora stiamo ottenendo traballante. Le persone tendono a scrivere molto meno, l'uso del linguaggio meno formale, e utilizzare più emoji che tua opinione modello film non si sarebbe visto.
Detto questo, ci sono sicuramente i servizi sentiment analysis "generiche" come qui . Provate il vostro modello contro Algorithmia su quello che si potrebbe prendere in considerazione un insieme generico di dati (ad esempio un gruppo di tweets ) e vedere come si fa.