Pergunta

Eu estou engatinhando sites de notícias e deseja extrair Notícias Título, notícias Abstract (primeiro parágrafo), etc

I ligado ao código do analisador webkit a webpage navegar facilmente como uma árvore. Para eliminar navegação e outro conteúdo não notícia que eu tomar a versão texto do artigo (menos as tags de html, webkit fornece api para o mesmo). Então eu executar o algoritmo de diff comparando texto vário artigo do mesmo site isso resulta em texto semelhante a ser eliminado. Isto dá-me menos o conteúdo do conteúdo de navegação comum etc.

Apesar da abordagem acima ainda estou recebendo algum lixo no meu texto final. Isso resulta em incorreta Notícias Abstract ser extraídos. A taxa de erro é de 5 em 10 artigo isto é 50%. Erro como em

Can you

  1. Sugerir uma estratégia alternativa para a extração de puro conteúdo,

  2. Would / Can aprendizagem Linguagem Natural rocessing ajuda na extração abstrato correta destes artigos?

  3. Como você abordaria o problema acima?.

  4. São estes quaisquer trabalhos de pesquisa sobre o mesmo?.

Saudações

Ankur Gupta

Foi útil?

Solução

Para a pergunta (1), eu não tenho certeza. Eu não fiz isso antes. Talvez uma das outras respostas vai ajudar.

Para a pergunta (2), criação automática de resumos não é um campo desenvolvido. É geralmente referido como 'seleção sentença', porque a abordagem típica agora é simplesmente selecionar frases inteiras.

Para a pergunta (3), a forma básica para criar resumos de aprendizagem de máquina seria:

  1. Criar um corpus de resumos existente
  2. Anotar os resumos em uma forma útil. Por exemplo, você provavelmente gostaria de indicar se cada frase no original foi escolhido e por que (ou porque não).
  3. Train um classificador de algum tipo no corpus, em seguida, usá-lo para classificar as frases em novos artigos.

A minha referência favorita em aprendizagem de máquina é de Tom Mitchell Machine Learning . Ele lista uma série de maneiras de implementar passo (3).

Por questão (4), estou certo de que há alguns papéis porque meu orientador mencionado no ano passado, mas eu não sei por onde começar desde que eu não sou um especialista na área.

scroll top