Dati seme per sentiment analysis [chiuse]
-
20-09-2019 - |
Domanda
Sto giocando intorno con sentiment analysis, e sto cercando alcuni dati di semi. C'è il dizionario in giro?
Può essere davvero semplice: 3 serie di testi / frasi, per "positivo", "negativo", "neutrale". Esso non deve essere enorme.
Alla fine io probabilmente generare i miei propri dati di sementi per il mio specifico caso d'uso, ma sarebbe bello avere qualcosa con cui giocare ora, mentre sto costruendo la cosa.
Soluzione
Bing Liu e Minqing Hu da UIC avere un certo numero di set di dati:
- http://www.cs.uic.edu/~liub /FBS/CustomerReviewData.zip
- http: //www.cs.uic. edu / ~ liub / FBS / recensioni-9-products.rar
Bo Pang presso la Cornell ha ancora un po '.
Altri suggerimenti
Se siete interessati nei dizionari sentimento, molti autori hanno presentato il lavoro sulla base di liste costruiti manualmente, e altri metodi semi automatici per ottenere elenchi di termini supponente. Un buon approccio è quello di ricavare dalla WordNet efficienti, estendendo un nucleo di parole positive / negative utilizzando rapporti come sinonimi ecc.
Un buon esempio di una lista costruita manualmente è il generale Inquirer .
Per un metodo semi automatizzato che deriva elenchi, controlla i SentiWordNet da esuli e Sebastiani.
Si tratta Credo sono generalmente disponibili per la ricerca, ma potrebbe essere necessario per entrare in contatto con gli autori per quanto riguarda l'utilizzo di queste risorse per fini non di ricerca.
B.
È possibile utilizzare l'elenco di parole AFINN qui:
http://www2.imm.dtu.dk/ pubdb / views / publication_details.php? id = 6010
AFINN è una lista di parole inglesi adatti per una valenza con un numero intero tra meno cinque (negativo) e più cinque (positivo). Le parole hanno stato etichettato manualmente da Finn Årup Nielsen nel 2009-2011. Il file è separato da tabulazione. Ci sono due versioni:
AFINN-111:. Nuova versione con 2477 parole e frasi
AFINN-96: 1468 parole uniche e frasi su 1480 linee. Si noti che non vi sono 1480 linee, come alcune parole sono elencate due volte. L'elenco di parole a non interamente in ordine alfabetico.
Io sostengo una lista di corpora e liste di parole per sentiment analysis (dove il mio AFINN è uno di loro):
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Corpora
http://neuro.compute.dtu.dk/wiki/Sentiment_analysis#Affective_word_lists