Ingenuo Bayesiano per il rilevamento Topic utilizzando “Bag of Words” approccio

https://stackoverflow.com/questions/2781752

03-10-2019
|

Domanda

Sto cercando di implementare un approccio bayseian ingenuo trovare l'argomento di un dato documento o fiume di parole. È che ci sono ingenuo approccio bayesiano che io possa essere in grado di cercare per questo?

Inoltre, sto cercando di migliorare il mio dizionario come vado avanti. Inizialmente, ho un mucchio di parole che mappano ad un tema (hard-coded). A seconda del verificarsi di parole diversi da quelli che sono già mappati. E a seconda delle occorrenze di queste parole voglio aggiungere loro per le mappature, quindi migliorare e conoscere nuove parole che mappa a tema. E cambiando anche le probabilità di parole.

come dovrei andare a fare questo? È il mio approccio quello giusto?

Quale linguaggio di programmazione sarebbe più adatto per l'attuazione?

Soluzione

Le implementazioni esistenti di Naive Bayes

Si sarebbe probabilmente meglio solo utilizzando uno dei pacchetti esistenti che la classificazione supporti documento utilizzando Naive Bayes, per esempio:.

Python - Per fare questo utilizzando il Python basata Natural Language Toolkit (NLTK) , vedere la documento Classificazione nella liberamente disponibile NLTK libro .

Rubino - Se Ruby è più vostra cosa, è possibile utilizzare il Classificatore gemma. Ecco il codice di esempio che rileva se citazioni Family Guy sono divertenti o non- divertente .

Perl - Perl ha il Algorithm :: NaiveBayes modulo, completo di un frammento di utilizzo di esempio nel pacchetto sinossi .

C # - programmatori C # può utilizzare nBayes . La home page del progetto ha il codice di esempio per un semplice classificatore spam / non-spam.

Java - gente Java hanno Classifier4J . Si può vedere un codice di formazione e di punteggio frammento qui .

bootstrap classificazione da parole chiave

Sembra che si vuole iniziare con una serie di parole chiave che sono noto a spunto per determinati argomenti e quindi utilizzare tali parole chiave per bootstrap un classificatore .

Questa è un'idea abbastanza intelligente. Date un'occhiata al giornale Testo Classication dal bootstrap con parole chiave, EM e Ritiro da McCallum e Nigam (1999). Seguendo questo approccio, sono stati in grado di migliorare la precisione di classificazione dal 45% hanno ottenuto utilizzando hard-coded parole chiave da solo al 66% utilizzando un classificatore bayesiano bootstrap. Per i loro dati, il secondo è vicino ai livelli umani di accordo, come la gente d'accordo con l'altro sul documento etichette 72% del tempo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow