По меньшей мере 20% из более чем 500 миллионов твитов, генерируемых каждый день, являются спамом. С помощью своих ботов Twitter изо всех сил пытается помешать спам-аккаунтам отправлять эти сообщения.

Обнаружение спама затруднено. Параметры, используемые для различения спама и обычных сообщений, изменчивы и могут быть изменены. Машинное обучение до сих пор считалось наиболее эффективным методом автоматического обнаружения спама, и провайдеры электронной почты предпочитают именно его. Даже если спам-твиты все еще там, фильтрация Twitter по-прежнему достаточно сильна, потому что он ежедневно удаляет более 1 миллиона спам-аккаунтов.

Как искусственный интеллект определяет спам? Вот описание работы обнаружения спама на основе машинного обучения.

Что такое фильтрация спама?

Программа, известная как спам-фильтр, используется для выявления нежелательных, нежелательных и зараженных вирусами электронных писем и предотвращения их попадания в почтовый ящик пользователя. Спам-фильтр, как и другие системы фильтрации, ищет определенные стандарты, на которых основываются его решения.

Системы фильтрации спама в электронной почте используются поставщиками услуг Интернета (ISP), предприятиями и бесплатными онлайн-службами электронной почты для снижения опасности распространения спама. Например, одна из первых и самых простых систем фильтрации спама, подобная той, что использовалась Microsoft Hotmail, была настроена на поиск определенных терминов в строках темы сообщения. Когда фильтр обнаруживал один из предопределенных терминов, электронное письмо не добавлялось в папку «Входящие» пользователя.

Этот подход не особенно эффективен и часто пропускает полностью приемлемые сообщения, известные как ложные срабатывания, в то же время пропуская настоящие спам-сообщения.

Более продвинутые системы, включая байесовские фильтры и другие эвристические фильтры, могут использовать подозрительные шаблоны слов или частоту слов, чтобы идентифицировать спам-сообщения. Они достигают этого, получая представление о предпочтениях пользователя из электронных писем, помеченных как спам. Когда отправляются новые электронные письма, предназначенные для почтового ящика пользователя, спам-программа создает правила и применяет их.

Например, байесовский фильтр обнаруживает тенденцию, когда пользователи помечают электронные письма как спам, и автоматически добавляет все последующие электронные письма от этого отправителя в папку со спамом.

Этот метод не очень эффективен и часто пропускает полностью подлинные сообщения, известные как ложные срабатывания, в то же время пропуская настоящие спам-сообщения.

Способность распознавать подозрительные шаблоны слов или частотность слов является особенностью более продвинутых систем, таких как байесовские фильтры и другие эвристические фильтры, которые используются для выявления спам-сообщений. Они достигают этого, выясняя предпочтения пользователя на основе электронных писем, которые были помечены как спам. Затем спам-фильтр устанавливает правила и применяет их при обработке входящих электронных писем, предназначенных для почтового ящика пользователя.

Байесовский фильтр, например, выявляет закономерности в поведении пользователя и автоматически перемещает последующие электронные письма от определенного отправителя в папку со спамом, если пользователь помечает электронное письмо от этого отправителя как спам.

Типы спам-фильтров?

Спам-фильтры бывают разных форм и размеров. Ниже приведены некоторые из наиболее часто используемых фильтров:

  • Фильтры черного списка. Спам-сообщения от отправителей, добавленных в обширный список спамеров, блокируются фильтрами черного списка. Чтобы не отставать от спамеров, которые довольно часто меняют свои адреса электронной почты, фильтры черного списка часто обновляются. Однако, если спамеры изменят свой домен электронной почты, электронное письмо может обмануть систему и пройти через фильтр, прежде чем оно снова будет помечено как спам.

Чтобы защитить свои коммерческие интересы, компании часто разрабатывают собственный фильтр черных списков. Например, они могут помешать охотникам за головами, которые пытаются украсть их лучших сотрудников в интересах других предприятий, включая их прямых конкурентов. Они также могут блокировать электронные письма, которые, по их мнению, являются пустой тратой времени их сотрудников, например, сообщения о скидках.

  • Фильтры заголовков — заголовки электронных писем проверяются фильтрами заголовков, чтобы определить их источник происхождения. Это содержит информацию, предполагающую, что электронное письмо было частью многочисленных электронных писем, отправленных одновременно списку получателей, а также IP-адреса, которые, как известно, часто используются спамерами.
  • Языковые фильтры. Спамеры часто нацелены на людей по всему миру и иногда отправляют электронные письма из мест, где язык не является родным языком получателя. Языковые фильтры помогают остановить эти сообщения, но если у компании глобальная клиентура, есть вероятность, что запросы потребителей из других стран попадут в папку со спамом. Поэтому обычно рекомендуется проверять папку со спамом, ожидая таких писем от международных клиентов.
  • Фильтры содержимого. Содержимое каждого электронного письма проверяется фильтрами содержимого, которые используют эти данные, чтобы определить, является ли электронное письмо спамом или нет. Эти фильтры часто работают, потому что спам-письма предлагают сделки, рекламируют откровенный контент или нацелены на обычные человеческие эмоции, такие как желание и страх. Эти спамеры часто повторяют целевые термины, такие как специальное предложение или скидка, что может привести к срабатыванию фильтра. Кроме того, некоторые компании используют контент-фильтры для проверки электронных писем на наличие оскорбительных выражений и блокирования их при необходимости.
  • Фильтры на основе правил. Пользователи могут создавать собственные правила и применять их ко всем входящим электронным письмам с помощью фильтров на основе правил. Письма, содержащие контент, удовлетворяющий одному из требований, немедленно пересылаются в папку со спамом. Определенные слова или фразы в сообщении или заголовке могут служить правилами. Поскольку фильтры на основе правил также могут быть нацелены на определенных отправителей, их часто предпочитают пользователи, которые получают нежелательные электронные письма, связанные с членством.

Зачем нужны спам-фильтры?

Поставщики услуг электронной почты используют фильтрацию спама, чтобы гарантировать, что их пользователи не будут раздражать, насколько это возможно, даже несмотря на то, что большая часть спама, как правило, безвредна. Спам-сообщения могут засорить ваш почтовый ящик до такой степени, что место для хранения становится ограниченным, а управление почтовым ящиком затруднено. В этой ситуации пользователи могут быть вынуждены выбирать между увеличением своего хранилища или регистрацией другой бесплатной учетной записи электронной почты. Финансовая линия первоначального поставщика выиграет от удержания пользователей от перехода на другую услугу, потому что они рискуют потерять деньги, если они это сделают.

Несмотря на то, что большая часть спама довольно безвредна, провайдеры электронной почты используют фильтрацию спама, чтобы гарантировать, что их пользователи не будут раздражать, насколько это возможно. Ваш почтовый ящик может стать настолько переполнен спамом, что место для хранения начнет заканчиваться, а управление почтовым ящиком станет затруднительным. В этой ситуации клиентам, возможно, придется выбирать между увеличением своего хранилища или регистрацией другой бесплатной учетной записи электронной почты. В итоге первоначальный поставщик выиграет, если пользователи останутся с ним, а не перейдут к другому, потому что в этом случае они могут потерять деньги.

Чем могут помочь спам-фильтры?

Вы можете извлечь выгоду из спам-фильтров, избегая получения нежелательных писем в свой почтовый ящик. Хотя это может показаться простой задачей, фильтры, которые не обновляются регулярно в соответствии с самыми последними стратегиями борьбы со спамом, и отправители могут столкнуться с трудностями при выполнении.

Чтобы обойти устаревшие спам-фильтры, спамеры могут изменить исходный адрес электронной почты или содержимое заголовка или тела. Если спам-фильтр регулярно не обновляется правильными данными, это может быть эффективным. Поэтому крайне важно проверить, обладает ли ваш спам-фильтр достаточными интеллектуальными возможностями. Если это произойдет, он сможет остановить тысячи или даже сотни спам-писем в месяц.

Спам-фильтры полезны, поскольку они добавляют дополнительную степень защиты сети. Хакеры и другие злоумышленники, желающие заразить компьютеры вредоносными программами, часто используют электронную почту в качестве канала атаки. Злоумышленник отправил вложение электронной почты, которое выглядит как фотография. Однако файл может содержать вирус, который активируется только тогда, когда получатель щелкает ссылку на файл.

В других случаях тело письма может содержать ссылку. Получатель попадает на вредоносный веб-сайт, когда он нажимает на это слово или фразу. Вы можете предотвратить попадание опасных электронных писем в почтовые ящики ваших сотрудников, используя правильный спам-фильтр.

Пример — спам-фильтр комментариев на YouTube

Это пример обучения модели обнаружения спама в комментариях на Youtube.

Google Colab: https://research.google.com/colaboratory/

Мультиномиальный наивный байесовский метод Scikit-learn: https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html

TF-IDF: https://en.wikipedia.org/wiki/Tf–idf

Набор данных: https://archive.ics.uci.edu/ml/datasets/YouTube+Spam+Collection

Исходный код: https://github.com/jacksonyuan-yt/youtube-comments-spam-classifier

Джей Махамуни, Маюреш Джоши и Прит Бхундиа