Pergunta

Eu estou procurando um agregador para os editoriais e artigos de opinião páginas de um monte de jornais de língua inglesa Eu quero seguir. O objetivo é gerar um HTML que é apenas uma coleção de peças editoriais dos jornais dúzia eu quero seguir internacionalmente, para que eu possa imprimi-los na parte da manhã. Uma vez que este é um requisito muito estreito, eu não poderia encontrar qualquer coisa já está disponível assim que eu estou pensando em escrever um no meu próprio.

Agora, eu costumava ser um programador para ~ 8 anos na minha vida anterior (e agora têm sido seduzidos para o "Dark Side", que é Wall Street depois do meu MBA). Eu não sou conhecedor o suficiente hoje sobre a programação para fazer uma boa escolha em uma linguagem de script por isso tenho certeza que a melhor linguagem para isso seria (desempenho não é uma questão fundamental, bibliotecas para análise de HTML, manipulação de texto, bem como a obtenção de dados off páginas da web ao vivo são mais importantes).

PS: Eu não me importo de aprender uma nova língua (antes eu trabalhava extensivamente com x86 ASM, C e Visual C ++ / MFC) quase exclusivamente em ambientes Win32

.
Foi útil?

Solução

Use Python eo excelente lxml biblioteca para raspagem HTML. Ele suporta seletores CSS, que é uma enorme conveniência, e é bastante rápido. Ele lida com quebrado HTML bem também.

Outras dicas

linguagens interpretadas fazer bem com a geração de código, você deve pensar em Perl ou Ruby

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top