Bayes Naive pour la détection du sujet en utilisant l'approche « sac de mots »

https://stackoverflow.com/questions/2781752

03-10-2019
|

Question

Je suis en train de mettre en œuvre une approche naïve bayseian pour trouver le sujet d'un document donné ou flot de paroles. Est-il y a approche bayésienne Naïf que je pourrais être en mesure de rechercher pour cela?

En outre, je suis en train d'améliorer mon dictionnaire que je vais le long. Dans un premier temps, j'ai un tas de mots qui tracent à un sujets (codé en dur). En fonction de l'apparition des mots autres que ceux qui sont déjà mis en correspondance. Et en fonction des occurrences de ces mots que je veux les ajouter aux applications, améliorant ainsi et l'apprentissage de nouveaux mots au sujet de cette carte. Et aussi changer les probabilités de mots.

Comment dois-je aller à faire cela? Mon approche la bonne?

Quel langage de programmation serait le mieux adapté à la mise en œuvre?

La solution

Implémentations existantes de Bayes Naive

Vous seriez probablement mieux utiliser simplement l'un des packages existants qui gère la classification des documents en utilisant Bayes naïfs, par exemple:.

Python - Pour ce faire, en utilisant Python basé Toolkit langage naturel (NLTK) , consultez le Classement document dans la libre disposition NLTK livre .

Ruby - Si Ruby est plus votre truc, vous pouvez utiliser le classificateur petit bijou . Voici un exemple de code qui détecte si la famille citations Guy sont drôles ou sans but drôle .

Perl - Perl a Algorithme :: NaiveBayes le module , avec un extrait d'utilisation de l'échantillon dans le paquet synopsis .

C # - C # Les programmeurs peuvent utiliser nBayes . La page d'accueil du projet a un exemple de code pour un simple Spam / classificateur non-spam.

Java - Java gens ont Classifier4J . Vous pouvez voir un extrait du code de formation et de notation .

Amorçage Classification de mots clés

On dirait que vous voulez commencer par un ensemble de mots-clés qui sont connu signal pour certains sujets , puis utiliser ces mots-clés pour bootstrap un classificateur .

Ceci est une idée assez intelligente. Jetez un oeil sur le papier Texte classication par Amorçage avec des mots clés, EM et Rétrécissement par McCallum et Nigam (1999). En suivant cette approche, ils ont été en mesure d'améliorer la précision de la classification de 45% qu'ils ont obtenu en utilisant des mots-clés codés en dur seul à 66% en utilisant un classificateur Naive Bayes bootstrapped. Pour leurs données, ce dernier est proche des niveaux humains d'accord, que les gens étaient d'accord avec l'autre sur le document étiquettes 72% du temps.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow