Quale lingua è meglio per questo progetto editoriale e aggregatore editoriale?
-
12-09-2019 - |
Domanda
Sto cercando un aggregatore per le pagine redazionali e op-ed di un mucchio di quotidiani in lingua inglese che voglio seguire. L'obiettivo è quello di generare un HTML che è solo una raccolta di pezzi editoriali dai dozzina di giornali che voglio seguire a livello internazionale, in modo che io possa stampare in mattinata. Dal momento che questo è un requisito molto stretta, io non ho trovato nulla già disponibili così sto pensando di scrivere uno per conto mio.
Ora, ho usato per essere un programmatore per ~ 8 anni nella mia vita precedente (e ora sono stati influenzati per il "lato oscuro" che è Wall Street dopo il mio MBA). Io non sono informati a sufficienza oggi sulla programmazione per fare una buona scelta su un linguaggio di scripting in modo sono sicuro che il linguaggio migliore per questo sarebbe (prestazioni non è una questione fondamentale, librerie per l'analisi HTML, gestione del testo così come ottenere i dati off le pagine web dal vivo sono ancora più importante).
PS:. Non mi dispiace l'apprendimento di una nuova lingua (in precedenza ho lavorato a lungo con ASM x86, C e Visual C ++ / MFC) quasi esclusivamente in ambienti Win32
Soluzione
Usa Python e l'eccellente lxml biblioteca per raschiare HTML. Supporta selettori CSS, che è una comodità enorme, ed è piuttosto veloce. Gestisce rotto HTML bene.
Altri suggerimenti
linguaggi interpretati fare bene con la generazione del codice, si dovrebbe pensare a Perl o Ruby