В обширном цифровом ландшафте социальных сетей подлинность пользователя является первостепенной задачей. По мере роста таких платформ, как Twitter, растет и количество поддельных учетных записей. Эти учетные записи имитируют настоящие действия пользователей, создавая шум в данных и бросая тень на доверие к цифровым экосистемам.

Традиционные методы обнаружения поддельных учетных записей часто основаны на сложных алгоритмах машинного обучения. Однако существует интригующий альтернативный инструмент — закон Бенфорда, математический принцип, описывающий частотное распределение первых цифр во многих наборах числовых данных. В этой статье рассматривается, как мы можем использовать силу закона Бенфорда в сочетании с методами машинного обучения, чтобы разоблачать фальшивых подписчиков в Твиттере.

Закон Бенфорда: краткий обзор

Давайте задумаемся о частоте появления определенных чисел в качестве первых цифр в различных наборах данных. Например, представьте, что у вас есть набор данных, состоящий из цен на продукты на вашем любимом онлайн-рынке. Какая первая цифра, по вашему мнению, будет чаще всего встречаться в этих ценах?

Интуитивно вы можете предположить, что каждая цифра от 1 до 9 будет иметь равные шансы стать первой цифрой. В конце концов, разве распределение не должно быть равномерным? Удивительно, но это предположение неверно. В соответствии с законом Бенфорда первая цифра 1 появляется как наиболее часто встречающаяся цифра, за ней следуют 2, 3 и т. д., причем 9 встречается реже всего.

Так что же такое закон Бенфорда?

Закон Бенфорда также называют законом аномальных чисел или законом первых цифр¹. Он обеспечивает вероятность получения первой цифры d в наборе натуральных чисел. Согласно закону, вероятность выпадения единицы на первом разряде составляет 30,1 %, а для 9 снижается до 4,6 %.

Если я спрошу вас следующее: «Предположим, у нас есть данные о населении каждого округа в США за 2000 год. Какова вероятность того, что случайный подсчет населения начинается с 1?» Теперь вы знаете, что ответ около 30%:

Это интригующее явление бросает вызов нашим традиционным ожиданиям и имеет далеко идущие последствия. Это наблюдается не только в ценах на продукты и количестве населения, но и в различных наборах данных, таких как финансовые отчеты, цены на акции, спортивная статистика, лайки в Tiktok и научные измерения. Понимание и использование силы закона Бенфорда может открыть ценную информацию и повысить нашу способность обнаруживать нарушения и аномалии в различных областях, включая аналитику социальных сетей, например, выявление фальшивых подписчиков в Твиттере.

В этом блоге я углубляюсь в увлекательное пересечение закона Бенфорда и машинного обучения, исследуя, как этот математический принцип можно использовать вместе с продвинутыми алгоритмами для выявления и борьбы с присутствием фальшивых подписчиков в Твиттере.

Источник данных и описание

Для проведения этого исследования я использовал общедоступный несинтетический помеченный набор данных учетных записей Twitter.

Источником набора данных о пользователях Twitter является веб-сайт Bot Repository², на котором размещена коллекция данных учетных записей пользователей Twitter.

На этом этапе возникла проблема ограничения данных, поскольку большая часть доступных общедоступных данных не соответствовала хотя бы одному из ключевых предположений, необходимых для закона Бенфорда. В результате единственным жизнеспособным набором данных, который я нашел, был набор данных cresci-2015.

Набор данных cresci-2015 содержит набор реальных данных, включающих подлинные и поддельные учетные записи Twitter, которые были вручную аннотированы первоначальными авторами³.

После загрузки набора данных я собрал и использовал 5301 аккаунтов (строки) и 8 функций (столбцы). Хотя набор данных содержал больше столбцов, только следующие столбцы считались релевантными для этого исследования:

Другой набор данных, используемый только для краткого примера закона Бенфорда, — это 14_Census_2000_2010.csv с веб-сайта Марка Нигрини⁴, автора книги «Закон Бенфорда».

Ключевые предположения и примеры

Прежде чем мы углубимся в примеры и применение закона Бенфорда, давайте рассмотрим его основные положения:

  • Набор номеров не ограничен. (Возможны все первые цифры: от 1 до 9)
  • Числа охватывают несколько порядков (1–10, 10–100, 100–1000, лучше всего подходят числа, не менее 4 цифр)
  • Размер выборки очень велик (если возможно, используйте всю совокупность; размер выборки менее 1000 приведет к ненадежным результатам).

Ниже приведены некоторые примеры наборов данных, которые соответствуют или не соответствуют закону Бенфорда (BL):

Некоторые основные применения закона Бенфорда в машинном обучении

  • Обнаружение мошенничества/аномалий
  • Судебная экспертиза изображений
  • Обнаружение ботов/фейковых подписчиков

Разработка функций

Прежде чем погрузиться в модели машинного обучения, я сначала создал функцию отношения followers/friends, потому что социальные связи учетных записей поддельных подписчиков неестественны. Одной из ключевых характеристик поддельных подписчиков является то, что поддельные подписчики следуют за большим количеством учетных записей пользователей по сравнению с тем, у них минимальное количество друзей (подписчиков). Хотя поддельные подписчики часто пытаются заставить другие поддельные учетные записи подписчиков подписаться на них, в среднем количество учетных записей, на которые они подписаны (сетевые друзья), остается значительно выше, чем количество их подписчиков (сетевых подписчиков).

Как видно из изображения выше, количество подписчиков поддельных учетных записей обычно меньше, чем количество друзей (напомним, это относится к количеству пользователей, на которых учетная запись подписывается⁵). Легко понять, почему фальшивые подписчики будут подписываться на большее количество аккаунтов — в конце концов, это их основная цель. Поскольку эти поддельные учетные записи подписчиков не предназначены для взаимодействия, у них обычно меньше подписчиков.

Проверка соответствия закону Бенфорда

Основываясь на приведенных выше обсуждениях и графиках, становится очевидным, что социальные связи, установленные ботами или поддельными подписчиками, неестественны и, следовательно, имеют тенденцию нарушать закон Бенфорда.

Проверяя наличие несоответствий или признаков фальшивых подписчиков в каждом подмножестве данных в наборе данных Twitter, я провел проверку гипотез:

  • Нулевая гипотеза. Подмножество данных следует распределению по закону Бенфорда.
  • Альтернативная гипотеза. Подмножество данных не подчиняется закону Бенфорда о распределении.

Я использовал критерий хи-квадрат с альфа = 0,05, чтобы проверить свои гипотезы и определить, насколько хорошо предложенная модель действительно соответствует данным, которые мы наблюдаем.

Применение вышеуказанного теста к каждому подмножеству данных (только подлинные, только поддельные и комбинированные кадры данных) привело к следующему:

1. Закон Бенфорда о подлинных счетах

Принимая во внимание основные допущения, изложенные в разделе Ключевые допущения и примеры этого блога, для проверки соответствия закону Бенфорда можно использовать только следующие функции:

  • количество_подписчиков
  • statuses_count
  • избранное_счетчик

Как показано ниже, подлинные аккаунты следуют дистрибутиву Benford:

2. Закон Бенфорда о поддельных аккаунтах подписчиков

Принимая во внимание основные допущения, изложенные в разделе Ключевые допущения и примеры этого блога, для проверки соответствия закону Бенфорда можно использовать только следующие функции:

  • количество_подписчиков
  • statuses_count
  • избранное_счетчик
  • друзья_количество

Как показано ниже, распределение только поддельных данных не соответствовало закону распределения Бенфорда:

3. Закон Бенфорда для всего набора данных (сочетание подлинных и поддельных)

Принимая во внимание основные допущения, изложенные в разделе Ключевые допущения и примеры этого блога, для проверки соответствия закону Бенфорда можно использовать только следующие функции:

  • количество_подписчиков
  • statuses_count
  • избранное_счетчик
  • друзья_количество

Как показано ниже, наличие поддельных подписчиков во всем фрейме данных привело к тому, что он не соответствовал Benford Distribution:

Как показано выше, проверяя распределение 1-й цифры набора данных или подмножества данных, мы можем сразу увидеть, есть ли нарушения или признаки фальшивых подписчиков или даже ботов в наборе данных. Мы можем использовать такие идеи, чтобы узнать, какой группе наборов данных или подмножеств отдать приоритет при проверке, когда целью исследования является выявление существования аномалий, манипуляций или неестественных цифр, указанных в наборе данных (например, мошенничество или фальшивые подписчики в этом исследовании). ).

Модели машинного обучения

В этом разделе мы рассмотрим модели машинного обучения, чтобы определить наличие поддельных подписчиков в наборе данных Twitter. Основное внимание будет уделяться выяснению того, согласуется ли первичная предикторная переменная, идентифицированная классификаторами автоматического машинного обучения, с предположением о том, что социальные связи этих поддельных учетных записей, в частности, соотношение подписчиков и друзей, являются аномальными.

Чтобы выполнить эту задачу классификации, я использовал набор моделей машинного обучения, включая повышение градиента, случайный лес и k-ближайших соседей (kNN). С помощью функции автоматического машинного обучения я определил основную переменную-предиктор, критически важную для обнаружения поддельных подписчиков в Твиттере. Впоследствии я сравнил его последствия с выводами, полученными из закона Бенфорда, чтобы подтвердить результаты.

Исходный уровень: критерий пропорционального шанса (PCC) составляет 53 %, поэтому мы должны превзойти точность 67 % (1,25 x PCC).

Auto-ML. Запустите созданную функцию auto-ML, получите верхнюю предикторную переменную для обнаружения поддельных подписчиков в Твиттере и сравните ее результаты с результатами BL:

Наблюдения

Как и ожидалось, анализ показал, что followers/friends ratio постоянно выступала в качестве главного предиктора, что согласуется с выводами закона Бенфорда. Это подтверждает первоначальную гипотезу о том, что отношение числа подписчиков к количеству друзей является ключевым фактором в определении подлинности аккаунта. Кроме того, подлинные последователи, как естественные наборы данных, продемонстрировали приверженность закону Бенфорда. Применение этого закона позволило идентифицировать фальшивых подписчиков в наборах данных, поскольку подлинные учетные записи следовали закону Бенфорда, а наборы данных с фальшивыми подписчиками отклонялись от него.

Заключение

В этом исследовании был представлен закон Бенфорда и его применение в машинном обучении с использованием набора данных cresci-2015. Ключевой задачей было найти несинтетический набор данных, который удовлетворяет предварительным требованиям для применения закона Бенфорда. Такие функции, как количество подписчиков, количество друзей и другие, были определены как отличительные факторы между поддельными и подлинными учетными записями. Затем эти характеристики использовались для проверки соответствия закону Бенфорда и применялись к моделям машинного обучения для классификации пользователей. Модели показали высокую точность обнаружения (99%+) для выявления фальшивых подписчиков.

В то время как поддельные последователи пытаются имитировать настоящие действия, их неестественное поведение означает, что они нарушают закон Бенфорда. Даже небольшая вариация в их распределении первых цифр может привести к тому, что все данные отклонятся от распределения по закону Бенфорда.

Применив закон Бенфорда, мы обнаружили в наборах данных наличие поддельных подписчиков. Все подлинные учетные записи соответствовали закону Бенфорда, в то время как наборы данных с фальшивыми подписчиками (например, фальшивый фрейм данных и комбинированный/полный фрейм данных) — нет.

Кроме того, автоматический ML дал результаты, соответствующие выводам закона Бенфорда. Отношение количества подписчиков к количеству друзей было постоянным главным предиктором во всех используемых моделях машинного обучения. Это подтвердило первоначальное предположение о том, что отношение числа подписчиков пользователя к его друзьям (подпискам) является ключевым фактором в определении того, является ли учетная запись подлинной или поддельной.

Мы можем сделать вывод, что встречающиеся в природе наборы данных следуют закону Бенфорда. Простую визуализацию закона Бенфорда можно использовать как в процессе обнаружения аномалий, так и для исследовательского анализа данных для выявления потенциальных ошибок, мошенничества, манипулятивной предвзятости или проблем с эффективностью обработки в наборе данных. Кроме того, закон Бенфорда также может применяться в качестве автономного начального индикатора наличия фальшивых подписчиков, предоставляя грубый, но ценный инструмент предварительной идентификации. Наконец, для больших наборов данных закон Бенфорда может помочь в выполнении узконаправленных тестов для обнаружения отклонений в подмножествах перед началом процесса моделирования машинного обучения.

Рекомендации для будущих исследований

Поскольку это исследование было в первую очередь проведено для того, чтобы показать, как закон Бенфорда может дополнить или помочь дать простое и немедленное представление о любых нарушениях или признаках манипуляции в наших наборах данных, есть много улучшений, которые можно было бы внедрить для будущих исследований. Основываясь на выводах нашего анализа и выводах, мы настоятельно рекомендуем для будущих исследований следующие пункты:

  1. Использовать большие наборы данных. Чтобы в полной мере продемонстрировать сильные стороны и использование закона Бенфорда в качестве дополнения или части конвейера машинного обучения или даже просто как части EDA, поскольку результаты закона Бенфорда, как правило, более точны, чем размер набора данных увеличивается, было бы лучше использовать больший набор данных.
  2. Обнаружение фальшивых подписчиков в режиме реального времени. Учитывая результаты, обсуждаемые в этом блоге, было бы очень полезно, чтобы закон Бенфорда и машинное обучение обнаруживали фальшивых подписчиков в режиме реального времени в качестве надстройки для Интернета или приложения. чтобы помочь с немедленным обнаружением существования поддельных подписчиков или даже ботов в приложении, которое использует пользователь.
  3. Рассмотрите другие нечисловые функции для более сильной модели: использование обработки естественного языка или поиска информации и других моделей для обработки и включения нечисловых функций, таких как фактические твиты, сделанные пользователями, можно использовать в сочетании с вышеупомянутый закон Бенфорда и шаги ML для повышения точности и полноты набора данных.

Дальнейшее исследование и изучение закона Бенфорда, связанного с улучшением моделей машинного обучения при обнаружении фальшивых подписчиков, поможет сделать Twitter и любые другие приложения для социальных сетей более безопасной средой для всех настоящих пользователей.

Исходный код

Если вы хотите изучить более полный анализ и код этого проекта, не стесняйтесь посетить мой репозиторий GitHub, нажав на эту ссылку. Спасибо!

Рекомендации

[1] Бенфорд, Ф. (1938). Закон аномальных чисел. Труды Американского философского общества, 78 (4), 551–572. https://www.jstor.org/stable/984802

[2] Разработчики репозитория ботов. (2022, ноябрь). Сайт репозитория ботов. https://botometer.osome.iu.edu/bot-repository/datasets.html.

[3] Креши С., Ди Пьетро Р., Петрокки М., Спогнарди А. и Тескони М. (2015). Слава на продажу: эффективное обнаружение фальшивых подписчиков в Твиттере. arXiv: 1509.04098 09/2015. Системы поддержки принятия решений Elsevier, том 80, декабрь 2015 г., страницы 56–71.

[4] Нигрини, М. (Wiley, 2012). Закон Бенфорда. https://nigrini.com/benfords-law/

[5] Разработчики Twitter. (2022, ноябрь). Подписывайтесь, ищите и привлекайте пользователей. https://developer.twitter.com/en/docs/twitter-api/v1/accounts-and-users/follow-search-get-users/обзор

[6] Национальная ассоциация государственных аудиторов, контролеров и казначеев. (2017). Анализ и обнаружение мошенничества: использование закона Бенфорда и других эффективных методов. https://www.youtube.com/watch?v=9tpGVq5DcTw&t=4961s