Welche Sprache ist am besten für dieses redaktionelle und op-ed-Aggregator-Projekt?

StackOverflow https://stackoverflow.com/questions/1261667

  •  12-09-2019
  •  | 
  •  

Frage

Ich suche nach einem Aggregator für die editoral und op-ed Seiten eines Bündels von englischsprachigen Zeitungen I folgen wollen. Das Ziel ist es, ein HTML zu erzeugen, die nur eine Sammlung von redaktionellen Stücken aus dem Dutzend Zeitungen ich international folgen will, ist, so dass ich sie weg am Morgen drucken. Da dies eine sehr enge Voraussetzung ist, konnte ich nichts finden bereits so ich denke auf meinem eigenen zu schreiben.

Nun habe ich einen Programmierer für ~ 8 Jahre in meinem früheren Leben zu sein (und jetzt in den „Dark Side“ schwanken bekannt waren, dass die Wall Street nach meinem MBA ist). Ich bin nicht sachkundig genug, um heute über die Programmierung eine gute Wahl auf einer Skriptsprache so ist nicht sicher, was die beste Sprache für diese wäre zu machen (Performance ist kein wichtiges Thema, Bibliotheken zum Parsen von HTML, Text Handhabung sowie Abrufen von Daten aus Live-Web-Seiten sind wichtig).

PS:. Ich habe nichts dagegen, eine neue Sprache zu lernen (früher arbeitete ich intensiv mit x86 ASM, C und Visual C ++ / MFC) fast ausschließlich in Win32-Umgebungen

War es hilfreich?

Lösung

Verwenden Sie Python und die ausgezeichnete lxml Bibliothek für HTML Schaben. Es unterstützt CSS-Selektoren, die eine große Bequemlichkeit ist, und es ist ziemlich schnell. Es behandelt gebrochen HTML gut zu.

Andere Tipps

interpretierte Sprachen werden auch mit Code-Generierung, sollten Sie darüber nachdenken, Perl oder Ruby

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top