Question

Je cherche un agrégateur pour les Editoral et pages op-ed d'un tas de journaux en langue anglaise que je veux suivre. L'objectif est de générer un code HTML qui est juste une collection de pièces éditoriales des journaux douzaine que je veux suivre le plan international, afin que je puisse les imprimer dans la matinée. Étant donné que cette exigence est très étroite, je ne pouvais pas trouver quoi que ce soit déjà disponible, donc je pense à écrire un moi-même.

Maintenant, je l'habitude d'être un programmeur pour environ 8 ans dans ma vie précédente (et ont maintenant été balancé au « côté obscur » qui est Wall Street après mon MBA). Je ne suis pas assez informé aujourd'hui sur la programmation pour faire un bon choix sur un langage de script si je suis pas certain que la meilleure langue pour ce serait (la performance n'est pas une question clé, les bibliothèques pour l'analyse syntaxique HTML, la gestion du texte, ainsi que l'obtention de données hors pages web en direct sont plus importants).

PS:. Je ne me dérange pas d'apprendre une nouvelle langue (auparavant je travaillais beaucoup avec ASM x86, C et Visual C ++ / MFC) presque exclusivement dans des environnements Win32

Était-ce utile?

La solution

Utilisez Python et l'excellent lxml bibliothèque pour gratter HTML. Il prend en charge les sélecteurs CSS, ce qui est une grande commodité, et il est assez rapide. Il gère HTML cassé bien aussi.

Autres conseils

langues interprétées bien avec la génération de code, vous devriez penser à Perl ou Ruby

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top