Какой стек технологий больших данных наиболее подходит для обработки твитов, извлечения/расширения URL -адресов и продвижения (только) новых ссылок в стороннюю систему?
-
16-10-2019 - |
Вопрос
(Примечание: вытащил этот вопрос из Список вопросов в области51, но, полагая, что вопрос является самообъяснением. Тем не менее, поверьте, я получаю общее намерение вопроса и в результате, вероятно, в состоянии выставить любые вопросы по вопросу, который может всплыть.)
Какой стек технологий больших данных наиболее подходит для обработки твитов, извлечения/расширения URL -адресов и продвижения (только) новых ссылок в стороннюю систему?
Решение
Я бы предложил Апач Кафка в качестве хранилища сообщений и любого решения для обработки потоков по вашему выбору, как Apache Camel или же Шторм Твиттера
Не связан с datascience.stackexchange