Какой язык лучше всего подходит для этого редакционного и публицистического проекта?
-
12-09-2019 - |
Вопрос
Я ищу агрегатор для редакционных и публицистических страниц ряда англоязычных газет, за которыми хочу следить.Цель состоит в том, чтобы сгенерировать HTML-код, который представляет собой просто набор редакционных статей из дюжины газет, за которыми я хочу следить по всему миру, чтобы я мог распечатать их утром.Поскольку это очень узкое требование, я не смог найти ничего доступного, поэтому подумываю написать его самостоятельно.
В прошлой жизни я был программистом около 8 лет (а теперь после получения степени MBA перешел на «Темную сторону», то есть на Уолл-стрит).Сегодня я недостаточно осведомлен о программировании, чтобы сделать правильный выбор языка сценариев, поэтому я не уверен, какой язык будет лучшим для этого (производительность не является ключевой проблемой, библиотеки для анализа HTML, обработки текста, а также получения данных). живые веб-страницы более важны).
ПС:Я не против изучения нового языка (ранее я много работал с x86 ASM, C и Visual C++/MFC) почти исключительно в средах Win32.
Решение
Используйте Python и превосходный lxml библиотека для парсинга HTML.Он поддерживает селекторы CSS, что очень удобно и довольно быстро.Он также хорошо обрабатывает сломанный HTML.
Другие советы
интерпретируемые языки хорошо справляются с генерацией кода, вам следует подумать о Perl или Ruby.