Quale lingua è meglio per questo progetto editoriale e aggregatore editoriale?

StackOverflow https://stackoverflow.com/questions/1261667

  •  12-09-2019
  •  | 
  •  

Domanda

Sto cercando un aggregatore per le pagine redazionali e op-ed di un mucchio di quotidiani in lingua inglese che voglio seguire. L'obiettivo è quello di generare un HTML che è solo una raccolta di pezzi editoriali dai dozzina di giornali che voglio seguire a livello internazionale, in modo che io possa stampare in mattinata. Dal momento che questo è un requisito molto stretta, io non ho trovato nulla già disponibili così sto pensando di scrivere uno per conto mio.

Ora, ho usato per essere un programmatore per ~ 8 anni nella mia vita precedente (e ora sono stati influenzati per il "lato oscuro" che è Wall Street dopo il mio MBA). Io non sono informati a sufficienza oggi sulla programmazione per fare una buona scelta su un linguaggio di scripting in modo sono sicuro che il linguaggio migliore per questo sarebbe (prestazioni non è una questione fondamentale, librerie per l'analisi HTML, gestione del testo così come ottenere i dati off le pagine web dal vivo sono ancora più importante).

PS:. Non mi dispiace l'apprendimento di una nuova lingua (in precedenza ho lavorato a lungo con ASM x86, C e Visual C ++ / MFC) quasi esclusivamente in ambienti Win32

È stato utile?

Soluzione

Usa Python e l'eccellente lxml biblioteca per raschiare HTML. Supporta selettori CSS, che è una comodità enorme, ed è piuttosto veloce. Gestisce rotto HTML bene.

Altri suggerimenti

linguaggi interpretati fare bene con la generazione del codice, si dovrebbe pensare a Perl o Ruby

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top