Frage

Was sind einige gute Algorithmen für die automatische Text mit der Stadt / Region oder Ursprungskennzeichnung? Das heißt, wenn ein Blog über New York ist, wie kann ich programmatisch sagen. Gibt es Pakete / Papiere, die mit hinreichender Sicherheit zu tun dies in Anspruch nehmen?

Ich habe bei einigen TFIDF basierten Ansätzen, Eigennamen Kreuzungen gesucht, aber bisher keine spektakulären Erfolge, und ich würde Ideen zu schätzen wissen!

Die allgemeinere Frage geht es um Texte zu Themen, da einige Themenliste zuweisen.

Einfache / naive Ansätze auf Bayes-Ansätzen voll bevorzugt, aber ich bin offen.

War es hilfreich?

Lösung

Sie suchen nach einem Entitätserkennung System genannt, oder kurz NER . Es gibt mehr gut Toolkits zur Verfügung um Ihnen zu helfen. LingPipe insbesondere ein sehr anständiges Tutorial . CAGEclass scheint sich um NER auf geographische Ortsnamen orientiert zu sein, aber ich habe es noch nicht verwendet.

Hier einem schönen Blog-Eintrag über die Schwierigkeiten bei den NER mit geografischen Orten Namen.

Wenn Sie mit Java gehen, würde ich empfehlen, die LingPipe NER-Klassen. OpenNLP hat auch einige, aber die ehemalige hat eine bessere Dokumentation.

Wenn Sie für einigen theoretischen Hintergrund suchen, Chavez et al. (2005) eine interessante syntem aufgebaut haben und es dokumentiert.

Andere Tipps

Latent Semantic Mapping scheint wie potentiell eine gute Passform. Das ist nur etwa so naiv ein Algorithmus, wie Sie wahrscheinlich zu finden sind.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top