Какой стек технологий больших данных наиболее подходит для обработки твитов, извлечения/расширения URL -адресов и продвижения (только) новых ссылок в стороннюю систему?

datascience.stackexchange https://datascience.stackexchange.com/questions/76

Вопрос

(Примечание: вытащил этот вопрос из Список вопросов в области51, но, полагая, что вопрос является самообъяснением. Тем не менее, поверьте, я получаю общее намерение вопроса и в результате, вероятно, в состоянии выставить любые вопросы по вопросу, который может всплыть.)

Какой стек технологий больших данных наиболее подходит для обработки твитов, извлечения/расширения URL -адресов и продвижения (только) новых ссылок в стороннюю систему?

Это было полезно?

Решение

Я бы предложил Апач Кафка в качестве хранилища сообщений и любого решения для обработки потоков по вашему выбору, как Apache Camel или же Шторм Твиттера

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top