Pergunta

Dada uma página HTML que é um artigo de texto pesado, eu gostaria de identificar e analisar o conteúdo principal.

Usando http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-e-monroe-doctrine.html como um exemplo, eu quero identificar div # pós-4438372351887392855, que contém o título e artigo.

Eu não sei nada pode ser perfeito ou trabalhar 100% do tempo, mas há uma abordagem que pode me dar o resultado desejado em um número razoável de circunstâncias?

Meu pensamento atual é para percorrer cada div, extirpando-se a marcação, em seguida, encontrar o mais interna div que contém o mais texto.

Neste ponto, eu estou apenas começando, então olhando para a entrada eu posso colocar no sentido de uma abordagem conceitual. Ou, se algo está lá fora, uma biblioteca de código aberto seria bom.

Agradecemos antecipadamente para os insights.

Foi útil?

Solução

Algumas pessoas no arc90 ter feito um trabalho bastante impressionante com este com sua legibilidade bookmarklet . Parece fazer um trabalho muito bom de encontrar o conteúdo 'main' -. Obras na página que você listar perfeitamente
Você pode olhar através de seu javascript bem comentado (ligada no bookmarklet), mas você pode querer entrar em contato com os desenvolvedores para suas idéias e permissão para usá-los.

Outras dicas

A lista compilada mais completa de recursos para a extração de conteúdo principal são:

  1. Extraindo Artigo em texto a partir de documentos HTML
  2. Lista de recursos: artigo extração de texto a partir de documentos HTML

Veja também os comentários desde há dicas extras.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top