Domanda

Sto facendo un progetto sul data mining contenuti del blog e ho bisogno di aiuto differenziazione sui quali strumento per usi. Quando si usa un parser, quando posso utilizzare un tagger, e quando ho bisogno di usare uno strumento NER?

Per esempio, io voglio scoprire più parlato di argomenti / soggetti tra diversi blog; si usa un tagger part-of-speech per afferrare i nomi e fare un conteggio di frequenza? Che probabilmente sarebbe insufficiente in quanto termini molto generici possono pop-up giusto? Oppure devo un elenco di categorie e di questi i sinonimi che posso abbinare il?

A proposito, sto usando NLTK, ma sto guardando stanford tagger o parser da un paio di tizi ha detto che era cosa buona.

È stato utile?

Soluzione

Invece di cercare di reinventare la ruota, si potrebbe desiderare di leggere su modelli di tema, che crea in pratica cluster di parole che si verificano spesso insieme. Mallet ha un toolkit prontamente disponibile per fare un tale compito: http: //mallet.cs.umass. edu / topics.php .

Per rispondere alla tua domanda iniziale, POS tagger, parser e strumenti NER non sono in genere utilizzati per l'identificazione argomento, ma sono più pesantemente utilizzati per compiti come l'estrazione di informazioni in cui l'obiettivo è quello di individuare all'interno di un documento della specifica attori, eventi, località, orari, ecc ... per esempio, se si aveva una frase semplice come "John ha dato la mela a Maria". si potrebbe utilizzare un parser di dipendenza per capire che John è il soggetto, la mela è l'oggetto, e Maria è l'oggetto preposizionale; in tal modo si conosce John è il donatore e Maria è il ricevitore e non viceversa.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top