Extraindo puro conteúdo / texto de páginas HTML, excluindo navegação e cromo conteúdo

https://stackoverflow.com/questions/1696914

18-09-2019
|

Pergunta

Eu estou engatinhando sites de notícias e deseja extrair Notícias Título, notícias Abstract (primeiro parágrafo), etc

I ligado ao código do analisador webkit a webpage navegar facilmente como uma árvore. Para eliminar navegação e outro conteúdo não notícia que eu tomar a versão texto do artigo (menos as tags de html, webkit fornece api para o mesmo). Então eu executar o algoritmo de diff comparando texto vário artigo do mesmo site isso resulta em texto semelhante a ser eliminado. Isto dá-me menos o conteúdo do conteúdo de navegação comum etc.

Apesar da abordagem acima ainda estou recebendo algum lixo no meu texto final. Isso resulta em incorreta Notícias Abstract ser extraídos. A taxa de erro é de 5 em 10 artigo isto é 50%. Erro como em

Can you

Sugerir uma estratégia alternativa para a extração de puro conteúdo,
Would / Can aprendizagem Linguagem Natural rocessing ajuda na extração abstrato correta destes artigos?
Como você abordaria o problema acima?.
São estes quaisquer trabalhos de pesquisa sobre o mesmo?.

Saudações

Ankur Gupta

Solução

Para a pergunta (1), eu não tenho certeza. Eu não fiz isso antes. Talvez uma das outras respostas vai ajudar.

Para a pergunta (2), criação automática de resumos não é um campo desenvolvido. É geralmente referido como 'seleção sentença', porque a abordagem típica agora é simplesmente selecionar frases inteiras.

Para a pergunta (3), a forma básica para criar resumos de aprendizagem de máquina seria:

Criar um corpus de resumos existente
Anotar os resumos em uma forma útil. Por exemplo, você provavelmente gostaria de indicar se cada frase no original foi escolhido e por que (ou porque não).
Train um classificador de algum tipo no corpus, em seguida, usá-lo para classificar as frases em novos artigos.

A minha referência favorita em aprendizagem de máquina é de Tom Mitchell Machine Learning . Ele lista uma série de maneiras de implementar passo (3).

Por questão (4), estou certo de que há alguns papéis porque meu orientador mencionado no ano passado, mas eu não sei por onde começar desde que eu não sou um especialista na área.

Outras dicas

Você pode ter um olhar para a minha href="http://code.google.com/p/boilerpipe/" rel="nofollow"> projeto no Google Code e testá-lo em páginas de sua escolha usando o aplicativo web ao vivo no Google AppEngine (ligada de lá).

Estou pesquisando esta área e ter escrito alguns artigos sobre o conteúdo remoção de extração / clichê de páginas HTML. Ver, por exemplo "Detecção Boilerplate usando Shallow recursos de texto" e assistir o vídeo correspondente na VideoLectures.net. O papel deve dar-lhe uma boa visão geral do estado da arte na área.

Cheers,

Christian

Eu não sei como ele funciona, mas confira a legibilidade. Ele faz exatamente o que você queria.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow