Domanda

Sto creando la mia implementazione di un classificatore ingenuo di Bayes. Mentre il suo comportamento e le funzionalità sono chiari per me, le mie preoccupazioni sono sulla natura dei dati di addestramento e test.

Ho acquisito diverse serie di recensioni di prodotti da Amazon. La prima cosa che faccio è analizzarli, cioè prendendo la valutazione (da 1 a 5 stelle) e il testo, che analizzo con un regex per contenere solo caratteri e spazi alfabetici minuscoli. Successivamente, converto le valutazioni in valori polari, quindi 1 e 2 stelle diventano “” e 4 e 5 stelle diventano “+”. Sto saltando intenzionalmente le recensioni con 3 stelle; Potrebbe essere un problema?

Ecco le mie vere preoccupazioni. Quando si utilizza una separazione percentuale per generare set di allenamento e test, entrambi dovrebbero contenere la stessa quota di recensioni positive e negative (come 7 recensioni positive e 7 negative per l'allenamento e 3 recensioni positive e 3 negative per i test)? In questo momento sto acquisendo tante recensioni negative dal set prescelto, ma mi chiedo se dovrebbe essere il caso. Ad esempio, se un set contiene 7 recensioni positive e 4 negative, scarto 3 recensioni positive per equipararle.

Inoltre, ho osservato che le recensioni negative tendono a contenere in media testi più lunghi. Quindi, se sto usando un numero uguale di recensioni positive e negative, ma differiscono per la lunghezza media del testo, ciò avrebbe un impatto sul modo in cui il mio classificatore cerca di prevedere?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top