Posso identificare il contenuto della pagina Intranet utilizzando Named Entity Recognition?

https://stackoverflow.com/questions/4001785

nlp
nltk

25-09-2019
|

Domanda

Sono nuovo di Natural Language Processing e voglio imparare di più con la creazione di un progetto semplice. NLTK è stato suggerito di essere popolare in PNL così userò nel mio progetto.

Ecco quello che vorrei fare:

Voglio eseguire la scansione di pagine intranet della nostra società; circa 3K pagine
Vorrei analizzare e classificare il contenuto di queste pagine sulla base di alcuni criteri quali: HR, Ingegneria, pagine aziendali, ecc ...

Da quello che ho letto finora, posso farlo con nome riconoscimento delle entità. Posso descrivere le entità per ogni categoria di pagine, allenare la soluzione NLTK ed eseguire ogni pagina attraverso per determinare la categoria.

E 'questo l'approccio giusto? Apprezzo qualsiasi direzione e idee ...

Grazie

Soluzione

Sembra che si vuole fare classificazione testo / documento, che non è proprio la stessa cosa come nome Entity Recognition, dove l'obiettivo è quello di riconoscere qualsiasi entità con nome (corretta nomi, luoghi, istituzioni, ecc) nel testo. Tuttavia, i nomi propri potrebbero essere caratteristiche molto buone quando si fa la classificazione testo in un dominio limitato, è ad esempio possibile che una pagina con il nome dell'ingegnere capo potrebbe essere classificato come Ingegneria.

Il libro NLTK ha un capitolo sulla classificazione testo di base .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow