Domanda

Quali sono alcuni buoni algoritmi per etichettare automaticamente il testo con la città / regione o l'origine? Cioè, se un blog parla di New York, come posso dirlo a livello di programmazione. Ci sono pacchetti / documenti che affermano di farlo con un certo grado di certezza?

Ho esaminato alcuni approcci basati su tfidf, intersezioni di nomi propri, ma finora, nessun successo spettacolare e apprezzerei le idee!

La domanda più generale riguarda l'assegnazione di testi agli argomenti, dato un elenco di argomenti.

Approcci semplici / ingenui preferiti al massimo sugli approcci bayesiani, ma sono aperto.

È stato utile?

Soluzione

Stai cercando un riconoscimento dell'entità denominata o breve NER . Ci sono diversi buono toolkit disponibile per aiutarti. LingPipe in particolare ha un tutorial decente . CAGEclass sembra essere orientato attorno a NER sui nomi di luoghi geografici, ma non l'ho ancora usato.

Ecco un bel post di blog sulle difficoltà di NER con nomi di luoghi geografici.

Se vai con Java, ti consiglio di usare le classi NER LingPipe. OpenNLP ne ha anche alcuni, ma il primo ha una documentazione migliore.

Se stai cercando un background teorico, Chavez et al. (2005) hanno costruito un interessante syntem e lo hanno documentato.

Altri suggerimenti

Mappatura semantica latente sembra potenzialmente una buona scelta. È altrettanto ingenuo di un algoritmo come probabilmente troverai.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top