Кластеризация новостей

https://stackoverflow.com/questions/784602

16-09-2019
|

Вопрос

Как Google News и Techmeme группируют похожие новости?Есть ли какой-нибудь хорошо известный алгоритм, который используется для достижения этой цели?

Ценю вашу помощь.

Заранее спасибо.

Решение

Одним из довольно распространенных способов кластеризации текста на основе содержимого является использование Принципиальный компонентный анализ на векторах слов (вектор из n измерений, где каждое возможное слово представляет одно измерение, а величина в каждом направлении для каждого вектора представляет собой количество вхождений слова в этой конкретной статье), за которым следует простая кластеризация, такая как K -Означает.

Другие советы

Алгоритмическая основа — агломеративная кластеризация или что-то подобное.Но помимо этого существует ряд эвристик.Например, векторное пространство наверняка состоит из слов и фраз (словных n-грамм).Ограничение поиска строгим периодом времени также очень важно.Идентификация имен и придание большей значимости заголовку и заголовкам абзацев также являются ключевыми моментами.

По касательной ноте.Если вы заинтересованы в поиске почти повторяющихся статей, существует ряд более простых в реализации подходов, таких как описанный. здесь

Есть несколько разных способов сделать это.Стандарт состоит в том, чтобы выполнить анализ «мешка слов» (взвешенный TF-IDF), а затем выполнить косинусное сходство и k-средние.

Я добился успеха с этой статьей: http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

Самое замечательное в этом то:1) Это постепенно, что отлично подходит для новостей.При использовании стандартных k-средних вам необходимо иметь весь набор данных.Что касается новостей, статьи обычно приходят со временем.Инкрементные алгоритмы решают эту проблему.2) Оно основано на фразах.Поэтому он опирается на фразы, а не только на слова.

В последнее время появились методы, использующие семантическое значение вместо слов (например, путем извлечения концепций Википедии или DBPedia из каждой статьи и использования их вместо просто слов).

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow