Foi útil?

Solução

A tarefa de determinar a parte adequada da fala de uma palavra em um texto é chamado parte do discurso Tagging . O Brill etiquetador , por exemplo, utiliza uma mistura de dicionário de palavras (vocabulário) e regras de contexto. Acredito que alguns dos importantes palavras do dicionário iniciais para esta tarefa são as palavras de parada. Depois de ter partes do discurso (na sua maioria corretas) para suas palavras, você pode começar a construir estruturas maiores. Este livro orientado a indústria diferencia entre reconhecer frases nominais (PN) e reconhecendo entidades nomeadas. Sobre livros: Natural Language Understanding de Allen é uma boa, mas um pouco datado, livro . Fundamentos de Estatística Natural Language Processing é uma boa introdução para a PNL estatística. Fala e Processamento de Linguagem é um pouco mais rigorosa e talvez mais autoritário. A Associação de Linguística Computacional é uma comunidade científica líder em lingüística computacional.

Outras dicas

Além da abordagem baseada em dicionário, dois outros vêm à minha mente:

  • abordagens baseadas em padrões (de uma forma simples: tudo o que é capitalizado é um nome próprio)
  • Aprendizagem de máquina se aproxima (nomes próprios marca em um corpus de treino e treinar um classificador)

O campo é mais chamado com o nome da entidade extração e, muitas vezes considerado um subcampo da informações extração . Um bom ponto de partida para as diferentes áreas de PNL é geralmente o capítulo acordo no Oxford Handbook of Computational Linguistics :

Oxford Handbook of Computational Linguistics
(fonte: oup.com )

Tente pesquisar por "reconhecimento de entidades mencionadas." - que é o termo que é usado na literatura PNL para este tipo de coisa

Depende do que você entende por dicionário baseada.

Por exemplo, uma estratégia seria a de levar as coisas que não são em um dicionário e tentar prosseguir na suposição de que eles são nomes próprios. Se isso leva a uma análise sensata, considere a hipótese provisoriamente validados e continuar, caso contrário, concluir que eles não são.

Outras idéias:

  • Na posição de sujeito, qualquer assunto simples, sem um determinante é um bom candidato.
  • Ditto em preposicional frases
  • Em qualquer posição, com base em um determinante possessivo (por exemplo Bob em "A irmã de Bob") é um bom candidato

- MarkusQ

alguns toolkits sugeriu: 1. OpenNLP: há um componente Entity Recognition Nomeado para a sua tarefa 2. LingPipe: também um componente NER para ele embalagem 3. Stanford PNL: excelente pacote para uso acadêmico, talvez não comercial amigável. 4. nltk: um pacote Python PNL

Se você tem frase como "quem é Bill Gates" E se você aplicar parte dos tagger discurso a ele. Vai dar resposta como

"quem / WP é / VBZ factura / portões NN / NNS? /".

U pode tentar fazer isso on-line em http://cst.dk/online/pos_tagger/uk/

Assim que você está recebendo o que são todos os substantivos desta frase. Agora você pode facilmente extrair estes substantivos com algum algoritmo. Eu sugiro usar python se você estiver usando o processamento da linguagem natural. Tem NLTK (Natural Language Toolkit) com os quais você pode trabalhar.

Se você estiver interessado na implementação de processamento de linguagem natural e python é a sua linguagem de programação, então isso pode ser um recurso muito informativo: http://www.youtube.com/watch?v=kKe4M4iSclc

Embora esta é para a linguagem Bengali, mas pode chamar um procedimento comum identificada nome próprio. Então, eu espero que isso será útil para você. Verifique o link folowing: http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top