Posso identificar o conteúdo da página da intranet usando o reconhecimento de entidade nomeado?

https://stackoverflow.com/questions/4001785

nlp
nltk

25-09-2019
|

Pergunta

Sou novo no processamento de linguagem natural e quero aprender mais criando um projeto simples. Nltk foi sugerido para ser popular na PNL, então eu o usarei no meu projeto.

Aqui está o que eu gostaria de fazer:

Eu quero escanear as páginas da intranet da nossa empresa; Aproximadamente 3 mil páginas
Gostaria de analisar e categorizar o conteúdo dessas páginas com base em certos critérios, como: RH, engenharia, páginas corporativas, etc ...

Pelo que li até agora, posso fazer isso com o reconhecimento de entidade nomeado. Posso descrever entidades para cada categoria de páginas, treinar a solução NLTK e executar cada página para determinar a categoria.

É este o caminho certo? Agradeço qualquer direção e idéias ...

Obrigado

Solução

Parece que você quer fazer Classificação de texto/documento, que não é o mesmo que o reconhecimento de entidade nomeado, onde o objetivo é reconhecer quaisquer entidades nomeadas (nomes, lugares, lugares, instituições etc.) no texto. No entanto, os nomes próprios podem ser recursos muito bons ao fazer a classificação de texto em um domínio limitado, é provável que uma página com o nome do engenheiro da cabeça possa ser classificada como engenharia.

O livro NLTK tem Um capítulo sobre classificação básica de texto.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow