Que el lenguaje es el mejor para este proyecto agregador editorial y artículo de opinión?

StackOverflow https://stackoverflow.com/questions/1261667

  •  12-09-2019
  •  | 
  •  

Pregunta

Busco un agregador de las páginas Editoral y artículos de opinión de un montón de periódicos en inglés que quiero seguir. El objetivo es generar un archivo HTML que es sólo una colección de piezas editoriales de los periódicos docena Quiero seguir a nivel internacional, de modo que pueda imprimirlos en la mañana. Dado que este es un requisito muy estrecha, no pude encontrar nada ya disponibles, así que estoy pensando en escribir uno por mi cuenta.

Ahora, yo solía ser un programador para ~ 8 años en mi vida anterior (y ahora se han dejado influir al "lado oscuro" que es Wall Street después de mi MBA). No soy lo suficientemente bien informado acerca de la programación de hoy para hacer una buena elección en un lenguaje de script así que estoy seguro de cuál es el mejor lenguaje para esto sería (rendimiento no es una cuestión clave, bibliotecas de análisis de HTML, manejo de texto, así como obtener datos fuera páginas web en vivo son más importantes).

PS:. No me importa el aprendizaje de un nuevo idioma (Anteriormente trabajé intensamente con ASM x86, C y Visual C ++ / MFC) casi exclusivamente en entornos Win32

¿Fue útil?

Solución

El uso de Python y el excelente lxml biblioteca para raspar HTML. Es compatible con los selectores CSS, lo cual es una gran ventaja, y es bastante rápido. Maneja roto HTML bien también.

Otros consejos

lenguajes interpretados hacer bien con la generación de código, usted debe pensar en Perl o Ruby

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top