Фильтрация спама из полученных данных

https://datascience.stackexchange.com/questions/387

16-10-2019
|

Вопрос

Однажды я услышал, что фильтрация спама с помощью черных списков не является хорошим подходом, поскольку некоторые пользовательские поиски записей в вашем наборе данных могут искать конкретную информацию из заблокированных источников. Также это стало бременем для постоянной проверки Текущее состояние Каждый спамер заблокировал, проверяя, если сайт/домен все еще распространяют данные о спаме.

Учитывая, что любой подход должен быть эффективным и масштабируемым, чтобы поддержать фильтрацию на очень больших наборах данных, какие стратегии доступны для избавления от спама не смещенно?

Редактировать: Если возможно, какой -либо пример стратегии, даже если только интуиция, стоящая за ней, будет очень приветствуюсь вместе с ответом.

Решение

Фильтрация спама, особенно по электронной почте, была революционизирована нейронными сетями, вот пара документов, которые обеспечивают хорошее чтение на эту тему:

О нейронных сетях и будущем спама AC Cosoi, MS VLAD, V. Sgarciuhttp://ceai.srait.ro/index.php/ceai/article/viewfile/18/8

Интеллектуальное обнаружение спама на основе слов с использованием многоневральных сетей Энн Носсейр, Халед Нагати и Ислам Тадж-Эддинhttp://www.ijcsi.org/papers/ijcsi-10-2-1-17-21.pdf

Обнаружение спама с использованием адаптивных нейронных сетей: теория адаптивного резонанса Дэвид Ндумияна, Ричард Горора и Тарисай Мупамомбеhttp://onlineresearchjournals.org/jpesr/pdf/2013/apr/ndumiyana%20et%20al.pdf

РЕДАКТИРОВАТЬ: Основная интуиция, лежащая в основе использования нейронной сети, чтобы помочь с фильтрацией спама, заключается в том, чтобы обеспечить вес для терминов в зависимости от того, как часто они связаны со спамом.

Нейронные сети могут быть наиболее быстро обучены в контролируемой - вы явно предоставляете классификацию предложения в учебном наборе - окружающей среде. Не входя в Nitty Gritty, основная идея может быть проиллюстрирована этими предложениями:

Text = "Как потеря патента на виагры будет влиять на pfizer", spam = false Text = "Дешевая виагра купить сейчас", spam = true text = "онлайн -аптека виагра cialis lipitor", спам = true

Для двухэтапной нейронной сети на первом этапе рассчитывает вероятность спама на основе того, если слово существует в предложении. Итак, из нашего примера:

viagra => 66% buy => 100% pfizer => 0% и т. Д.

Затем для второго этапа результаты на первом этапе используются в качестве переменных на втором этапе:

Виагра и покупка => 100% Pfizer & Viagra => 0%

Эта основная идея выполняется для многих перестановки всех слов в ваших учебных данных. Конечные результаты после обучения - это в основном просто уравнение, основанное на контексте слов в предложении, может назначить вероятность спама. Установите порог спамистости и отфильтруйте любые данные выше, а затем указанный порог.

Другие советы

Черные списки не имеют значения по ряду причин:

Их легко настроить и масштабировать - это просто магазин ключей/значения, и вы, вероятно, можете просто повторно использовать часть своей логики кэширования для самой основной реализации.
В зависимости от размера и типа атаки спама, вероятно, будут использоваться очень конкретные термины или URL -адреса. Гораздо быстрее бросить этот термин в черный список, чем ждать, пока ваша модель адаптируется.
Вы можете удалить предметы так же быстро, как добавили их.
Все понимают, как они работают, и любой администратор может использовать их.

Ключ к борьбе со спамом - это мониторинг. Анкет Убедитесь, что у вас есть какой -то интерфейс, показывающий, какие предметы находятся в вашем черном списке, как часто они попадают в последние 10 минут / час в / день в месяц, и возможность легко добавлять и удалять предметы.

Вы захотите объединить ряд различных моделей обнаружения спама и тактики. Нейронные сети кажутся хорошим предложением, и я бы порекомендовал посмотреть Пользовательские шаблоны поведения В дополнение к просто контенту. Нормальные люди не делают такие вещи, как отправлять партии по 1000 электронных писем каждые 30 секунд в течение 12 часов подряд.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange