Domanda

Ho letto un sacco di articoli che spiegano la necessità di una prima serie di testi che sono classificati come 'positivo' o 'negativo' prima di un sistema di analisi sentimento sarà davvero il lavoro.

La mia domanda è: Qualcuno ha tentato solo facendo un controllo rudimentale di aggettivi 'positivi' vs aggettivi 'negativi', tenendo conto di eventuali negatori semplice per evitare classing 'non felice' come positivo? Se è così, ci sono articoli che trattano proprio il motivo per cui questa strategia non è realistico?

È stato utile?

Soluzione

Un classica carta da Peter Turney (2002) spiega un metodo per fare sentiment analysis senza supervisione (positivo / negativo di classificazione) utilizzando solo le parole ottimo e poveri come un insieme di semi. Turney utilizza il informazioni reciproca di altre parole con questi due aggettivi per ottenere una precisione di 74%.

Altri suggerimenti

Non ho provato a fare sentiment analysis inesperto come si sta descrivendo, ma la parte superiore della mia testa direi che si sta banalizzando il problema. Semplicemente analizzando gli aggettivi non è sufficiente per ottenere una buona conoscenza del sentimento di un testo; per esempio, si consideri la parola 'stupido.' Da solo, si potrebbe classificare che come negativo, ma se una recensione del prodotto dovesse avere '... prodotto [x] rende i loro concorrenti sembrare stupido per non pensare di questa funzionalità prima ...' poi il sentimento in là sarebbe sicuramente positiva . La maggior contesto in cui compaiono le parole conta sicuramente in qualcosa di simile. Questo è il motivo per cui una borsa-di-parole non addestrati approccio da solo (per non parlare di un ancora più limitata bag-of-aggettivi) non è sufficiente per affrontare questo problema in maniera adeguata.

I dati pre-classificati ( 'data di formazione') aiuta a che il problema si sposta dal cercare di determinare se un testo è del sentimento positivo o negativo da zero, per cercare di stabilire se il testo è più simile ai testi positivi o testi negativi, e classificare in questo modo. L'altro punto grande è che analisi testuali quali sentiment analysis sono spesso fortemente influenzato dalle differenze delle caratteristiche dei testi a seconda del dominio. Questo è il motivo per avere un buon set di dati per la formazione on (cioè, dati accurati dall'interno del dominio in cui si sta lavorando, e si spera rappresentante dei testi che si sta per avere classificare) è importante quanto la costruzione di un buon sistema per classificare con.

Non esattamente un articolo, ma la speranza che aiuta.

La carta di Turney (2002) citato da larsmans è una buona base. In una ricerca più recente, Li ed Egli [2009] introducono un approccio utilizzando Latent Dirichlet Allocation (LDA) per formare un modello in grado di classificare sentimento generale di un articolo e argomento contemporaneamente in modo del tutto senza sorveglianza. La precisione realizzano è 84,6%.

Ho provato ad avvistare le parole chiave utilizzando un dizionario di influenzare per prevedere l'etichetta sentimento a livello della frase. Data la generalità del vocabolario (non dominio dipendente), i risultati sono stati solo circa il 61%. Il documento è disponibile nel mio homepage.

In una versione un po 'migliorata, avverbi negazione sono stati considerati. L'intero sistema, denominato EmoLib, è disponibile per demo:

http://dtminredis.housing.salle.url.edu:8080/EmoLib /

Saluti,

David,

Non sono sicuro se questo aiuta, ma si consiglia di guardare in di Jacob Perkin blog posta sull'uso NLTK per l'analisi sentimento.

Ho provato diversi metodi di Sentiment Analysis per opinion mining in recensioni. Che cosa ha funzionato il migliore per me è il metodo descritto Liu libro: http: // www. cs.uic.edu/~liub/WebMiningBook.html In questo libro Liu e altri, contro molte strategie e diversi documenti discussi sul Sentiment Analysis e opinion mining.

Anche se il mio obiettivo principale era quello di estrarre le caratteristiche nei pareri, ho implementato un classificatore sentimento per rilevare la classificazione positivo e negativo di questa funzionalità.

Ho usato NLTK per la pre-elaborazione (tokenizzazione Word, POS tagging) e la creazione trigrammi. Poi ho anche usato il bayesiano Classificatori all'interno di questo tookit da confrontare con altre strategie di Liu è stato individuare.

Uno dei metodi si basa sulla codifica come pos / neg ogni trigrram esprimere queste informazioni, e l'utilizzo di alcuni classificatore su questi dati. Altro metodo che ho provato, e ha lavorato meglio (la precisione circa l'85% nel mio set di dati), è stato calcolando la somma dei punteggi di PMI (puntuale informazione reciproca) per ogni parola nella frase e le parole eccellente / poveri come semi di classe pos / neg.

Non ci sono magici "scorciatoie" di sentiment analysis, come con qualsiasi altro tipo di analisi del testo che cerca di scoprire il sottostante "aboutness," di una porzione di testo. Il tentativo di metodi di comprovata analisi del testo scorciatoia attraverso semplicistico "aggettivo" controllare o approcci simili porta ad ambiguità, classificazione errata, ecc, che alla fine della giornata vi darà una scarsa precisione leggere sul sentiment. Quanto più concisa la fonte (ad esempio Twitter), più difficile il problema.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top