Posso identificar o conteúdo da página da intranet usando o reconhecimento de entidade nomeado?
Pergunta
Sou novo no processamento de linguagem natural e quero aprender mais criando um projeto simples. Nltk foi sugerido para ser popular na PNL, então eu o usarei no meu projeto.
Aqui está o que eu gostaria de fazer:
- Eu quero escanear as páginas da intranet da nossa empresa; Aproximadamente 3 mil páginas
- Gostaria de analisar e categorizar o conteúdo dessas páginas com base em certos critérios, como: RH, engenharia, páginas corporativas, etc ...
Pelo que li até agora, posso fazer isso com o reconhecimento de entidade nomeado. Posso descrever entidades para cada categoria de páginas, treinar a solução NLTK e executar cada página para determinar a categoria.
É este o caminho certo? Agradeço qualquer direção e idéias ...
Obrigado
Solução
Parece que você quer fazer Classificação de texto/documento, que não é o mesmo que o reconhecimento de entidade nomeado, onde o objetivo é reconhecer quaisquer entidades nomeadas (nomes, lugares, lugares, instituições etc.) no texto. No entanto, os nomes próprios podem ser recursos muito bons ao fazer a classificação de texto em um domínio limitado, é provável que uma página com o nome do engenheiro da cabeça possa ser classificada como engenharia.
O livro NLTK tem Um capítulo sobre classificação básica de texto.