Posso identificare il contenuto della pagina Intranet utilizzando Named Entity Recognition?

StackOverflow https://stackoverflow.com/questions/4001785

  •  25-09-2019
  •  | 
  •  

Domanda

Sono nuovo di Natural Language Processing e voglio imparare di più con la creazione di un progetto semplice. NLTK è stato suggerito di essere popolare in PNL così userò nel mio progetto.

Ecco quello che vorrei fare:

  • Voglio eseguire la scansione di pagine intranet della nostra società; circa 3K pagine
  • Vorrei analizzare e classificare il contenuto di queste pagine sulla base di alcuni criteri quali: HR, Ingegneria, pagine aziendali, ecc ...

Da quello che ho letto finora, posso farlo con nome riconoscimento delle entità. Posso descrivere le entità per ogni categoria di pagine, allenare la soluzione NLTK ed eseguire ogni pagina attraverso per determinare la categoria.

E 'questo l'approccio giusto? Apprezzo qualsiasi direzione e idee ...

Grazie

È stato utile?

Soluzione

Sembra che si vuole fare classificazione testo / documento, che non è proprio la stessa cosa come nome Entity Recognition, dove l'obiettivo è quello di riconoscere qualsiasi entità con nome (corretta nomi, luoghi, istituzioni, ecc) nel testo. Tuttavia, i nomi propri potrebbero essere caratteristiche molto buone quando si fa la classificazione testo in un dominio limitato, è ad esempio possibile che una pagina con il nome dell'ingegnere capo potrebbe essere classificato come Ingegneria.

Il libro NLTK ha un capitolo sulla classificazione testo di base .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top