Pergunta

Será que a exist ferramenta que pode analisar o texto e saída que texto, hiper-ligados a entradas da Wikipedia para palavras de interesse?

Por exemplo, eu gostaria de uma ferramenta que poderia transformar algo como:

O algoritmo de busca populares mais em um lista ordenada é a busca binária.

Em:

O mais popular procurar algoritmo em um ordenada lista é o busca binária .

Seria maravilhoso se Wikipedia teve uma API que fazer isso uma vez que seriam mais bem equipados para determinar o que "palavras de interesses" são.

No meu exemplo eu simplesmente ligada todas as combinações que ligava diretamente para uma entrada com exceção de A e mais.

Foi útil?

Solução

Não é uma ferramenta que faz exatamente o que você está pedindo. http: //wikify.appointment.at/ Não é perfeito, mas funciona.

Outras dicas

Você tem dois problemas distintos para resolver aqui:

  1. Decidir quais palavras devem estar ligados
  2. Determinar se há uma entrada adequada para ligar estas palavras

Agora, (2) é mais simples, mas também é um pouco problemático. Wikipedia parece ter um API que permite recolher dados de forma eficiente, e eles também permitem "screen scraping". Mas há um problema com disambiguation - às vezes você pode bater não a entrada que queria. Por exemplo, python links para uma página de clarificação, como pode ser uma linguagem de programação, uma cobra e um par de outras coisas.

(1) é muito mais difícil, no entanto. Você pode ter a "abordagem simples" e tentar encontrar links para todos os substantivos não-triviais (ou mesmo substantivo / pares adjetivo). Não-trivial, aqui, significa palavras omitindo como "demônio, palavra, computador" etc. Mas Isso resultaria em uma infinidade de links, que não é conveniente para ler. É realmente até você para decidir o que é interessante no texto, e isso depende muito do próprio texto. Em um artigo para programadores profissionais, que você realmente quer apontam para "algoritmo de busca" cada vez? Mas, para iniciantes, talvez você faz.

Para concluir, duvido muito que há uma única ferramenta de uso geral que irá fazer o truque para você. Mas certamente você tem todas as opções à sua mão, e específicas de necessidade algo pode ser codificado sem muito esforço.

Silviu Cucerzan da Microsoft Research abordado este problema. Bem, não o problema de inserir os links, mas a questão geral de determinar o que entidades estão sendo mencionado em um algum pedaço de texto. Felizmente para você, ele usou os artigos da Wikipédia como seu conjunto de entidades. Seu papel, "Large-Scale Named Entity Desambiguação baseado na Wikipédia Data", está disponível em sua site . Link direto:. pdf

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top