Qual linguagem é melhor para este projecto agregador editorial e op-ed?
-
12-09-2019 - |
Pergunta
Eu estou procurando um agregador para os editoriais e artigos de opinião páginas de um monte de jornais de língua inglesa Eu quero seguir. O objetivo é gerar um HTML que é apenas uma coleção de peças editoriais dos jornais dúzia eu quero seguir internacionalmente, para que eu possa imprimi-los na parte da manhã. Uma vez que este é um requisito muito estreito, eu não poderia encontrar qualquer coisa já está disponível assim que eu estou pensando em escrever um no meu próprio.
Agora, eu costumava ser um programador para ~ 8 anos na minha vida anterior (e agora têm sido seduzidos para o "Dark Side", que é Wall Street depois do meu MBA). Eu não sou conhecedor o suficiente hoje sobre a programação para fazer uma boa escolha em uma linguagem de script por isso tenho certeza que a melhor linguagem para isso seria (desempenho não é uma questão fundamental, bibliotecas para análise de HTML, manipulação de texto, bem como a obtenção de dados off páginas da web ao vivo são mais importantes).
PS: Eu não me importo de aprender uma nova língua (antes eu trabalhava extensivamente com x86 ASM, C e Visual C ++ / MFC) quase exclusivamente em ambientes Win32
.Solução
Use Python eo excelente lxml biblioteca para raspagem HTML. Ele suporta seletores CSS, que é uma enorme conveniência, e é bastante rápido. Ele lida com quebrado HTML bem também.
Outras dicas
linguagens interpretadas fazer bem com a geração de código, você deve pensar em Perl ou Ruby