Naive Bayes für Themensuche mit „Bag of Words“ -Ansatz

https://stackoverflow.com/questions/2781752

03-10-2019
|

Frage

Ich versuche, einen naiven bayseian Ansatz zu implementieren, das Thema eines Dokument zu finden oder von Worten streamen. Ist es Naive Bayes-Ansatz, dass ich in der Lage sein könnte, für diese zu sehen?

Auch ich versuche, mein Wörterbuch zu verbessern, wie ich entlang gehen. Zunächst ich ein paar Worte, die zu einem Thema Karte (hartcodiert). Je nach dem Auftreten der Worte anders als diejenigen, die bereits zugeordnet sind. Und je nach Vorkommen dieser Worte, die ich sie zu den Zuordnungen hinzufügen will, daher verbessern und das Lernen über neue Worte, die Karte erstellen. Und auch die Wahrscheinlichkeiten der Wörter zu ändern.

Wie soll ich mich über dieses tun? Ist mein Ansatz die richtige?

Welche Programmiersprache wäre am besten für die Umsetzung geeignet?

Lösung

Vorhandene Implementierungen von Naive Bayes

Sie würden wahrscheinlich besser dran, nur mit einem der bestehenden Pakete, die Träger Dokumentenklassifizierung mit naiver Bayes, z.

Python - Um dies zu tun, den Python basierte mit Natural Language Toolkit (NLTK) finden Sie in der Dokumentenklassifizierung Abschnitt in dem frei verfügbaren NLTK Buch .

Rubin - Wenn Rubin eher Ihre Sache ist, können Sie die Classifier gem. Hier ist Beispielcode, der erkennt, ob Family Guy Zitate sind lustig oder nicht- lustig .

Perl - Perl hat die Algorithm :: NaiveBayes Modul, komplett mit einem Verwendungsbeispiel Schnipsel im Paket Übersicht .

C # - C # Programmierer verwenden können nBayes . Das Haus der Projektseite hat Beispielcode für einen einfachen Spam / nicht-Spam-Klassifikator.

Java - Java Leute haben Classifier4J . Sie können ein Training und Scoring-Code sehen Schnipsel hier .

Bootstrapping Klassifizierung von Keywords

Es klingt wie Sie mit einer Reihe von Schlüsselwörtern beginnen wollen, die sind für bestimmte Themen zu Cue bekannt und verwenden dann diese Keywords auf Bootstrap ein Klassifikator .

Dies ist eine ziemlich clevere Idee. Werfen Sie einen Blick auf das Papier Text Classication durch Bootstrapping mit Keywords, EM und Schwinden von McCallum und Nigam (1999). Mit diesem Ansatz konnten sie Klassifikationsgenauigkeit von 45% sie durch die Verwendung hartcodierte Keywords allein auf 66% unter Verwendung eines Bootstrap-Bayes-Klassifikator bekamen verbessern. Für ihre Daten, der Vereinbarung letztere ist in der Nähe menschlicher Ebene, wie Menschen miteinander über Dokument-Etikett 72% der Zeit vereinbart wird.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow