Общие социальные законы, обнаруженные в данных о поведении человека, могут помочь в раскрытии киберпреступлений.
Автор Ирвинг Владавски-Бергер
Несколько недель назад я писал о социальной физике, новой дисциплине, которая направлена на то, чтобы помочь нам лучше понять и предсказать поведение человеческих групп. Социальная физика основана на предпосылке, что все данные о событиях, представляющие деятельность человека - например, записи телефонных разговоров, покупки по кредитной карте, поездки на такси, активность в Интернете - содержат особый набор шаблонов группового поведения. Пока данные связаны с деятельностью человека - независимо от типа данных, демографии пользователей или размера наборов данных - применяется аналогичная поведенческая динамика. Эти закономерности можно использовать для обнаружения возникающих поведенческих тенденций до того, как они будут обнаружены другими методами анализа данных.
Физика, биология и другие естественные науки долгое время полагались на универсальные шаблоны или принципы для обнаружения слабого сигнала в большом наборе данных, например, пресловутой иголки в стоге сена. Именно это привело к открытию в физике очень короткоживущих элементарных частиц, таких как бозон Хиггса в 2013 году, на фоне огромных объемов данных, генерируемых ускорителями частиц высоких энергий. В биологии это дало начало секвенированию ДНК и его растущему списку приложений в медицине, биотехнологии и других дисциплинах.
Изучение поведения толпы людей
Неудивительно, что эволюционная биология и естественный отбор привели к сходным универсальным моделям поведения человеческих масс. Люди и наши предки развивались со стремлением учиться друг у друга, потому что это было важной частью нашего выживания на протяжении миллионов лет. И если новое поведение - будь то результат инновационной идеи, такой как открытие инструментов, или мутации, такой как увеличение размера мозга - помогает группе людей лучше адаптироваться к изменяющейся среде, естественный отбор будет способствовать выживанию этой группы, а не другие.
Социальная физика зародилась в лаборатории Human Dynamics Массачусетского технологического института на основе исследования профессора Алекса (Сэнди) Пентланда, его тогдашнего научного сотрудника Янив Альтшулер и их различных сотрудников.
В 2014 году Пентланд и Альтшулер соучредили Endor, израильский стартап, который использует методы социальной физики для быстрых и точных прогнозов путем анализа данных, полученных на основе поведения человека.
В своей более ранней статье по социальной физике я писал о ее применении в трейдинге на основе анализа данных платформы социального трейдинга eToro. Теперь я хотел бы обсудить применение социальной физики к киберпреступности, как описано в недавней статье Альтшулера и Пентланда, опубликованной в Новые решения для кибербезопасности.
Социальная физика против машинного обучения
Статья начинается с объяснения того, чем социальная физика отличается от методов машинного обучения и дополняет их. Машинное обучение и связанные с ним алгоритмы, такие как глубокое обучение, сыграли центральную роль в последних достижениях ИИ. Эти передовые статистические методы позволили создать алгоритмы искусственного интеллекта, которые можно обучать с большим количеством выборок входных данных вместо явного программирования. Они были наиболее успешными при применении к сложным задачам, таким как машинный перевод и распознавание изображений и голоса, когда доступен огромный объем данных, и данные довольно статичны, то есть обучающие данные, например картинки кошек или английский язык - меняются очень нечасто.
Данные, полученные на основе человеческого поведения, совершенно разные. Он динамичный, универсальный, постоянно меняющийся и находящийся под влиянием сложных социальных взаимодействий. Человеческое поведение демонстрирует высокую степень вариативности, что делает его трудным для предсказания и подверженным возникновению, когда целое вполне может отличаться от суммы частей. Для прогнозирования поведения человека требуется способность часто анализировать относительно небольшие наборы данных, собранные за короткие периоды времени.
«Социальная физика подходит к данным с совершенно другой точки зрения», - пишут Альтшулер и Пентланд. «Вместо того, чтобы выводить закономерности из самих входных данных, он основан на открытии того факта, что все поведенческие данные человека гарантированно содержат в себе набор общих социальных поведенческих законов - математических отношений, которые возникают всякий раз, когда достаточно большой количество людей работает в одном помещении ».
Несколько ключевых возможностей отличают социальную физику от других аналитических методов:
- Он не зависит от содержания - вам не нужно знать, какой вопрос задать, просто приведите примеры интересующих объектов (EOI) для поиска в форме «вот пример X, найдите меня больше X. »
- Сущности, похожие на определенные EOI, ищутся в данных, в основном на основе временных корреляций, что может быть выполнено намного быстрее и точнее, чем алгоритмы машинного обучения.
- Он способен обнаруживать динамическое поведение, которое коррелирует с EOI в режиме реального времени, что может указывать на возникающие или скрытые закономерности.
- Социальная физика ищет шаблоны, а не контент, поэтому она может анализировать полностью зашифрованные наборы данных, позволяя финансовым компаниям, поставщикам медицинских услуг или блокчейнам поддерживать конфиденциальность данных.
Поиск скрытых угроз
В статье обсуждаются два конкретных приложения социальной физики для обнаружения киберпреступлений. Первое приложение предназначено для обнаружения действий ИГИЛ в Twitter. Недавно спецслужба предоставила Endor метаданные 15 миллионов твитов для анализа на платформе Endor. В качестве проверки возможностей платформы агентство раскрыло личности 50 аккаунтов, которые, как известно, являются активистами ИГИЛ, чьи твиты были включены во входные данные, и попросило Endor обнаружить дополнительные 74 аккаунта, которые были скрыты в данных.
Система аналитики Endor определила 80 учетных записей Twitter как потенциальные ВЗ, поскольку они достаточно похожи на положительные образцы, предоставленные агентством. Сорок пять были правильными совпадениями - часть списка из 74 скрытых учетных записей, а 35 были ложноположительными результатами. Такой коэффициент ложности закона дает возможность специалистам-людям продолжить исследование целей.
Три ключевые причины делают социальную физику идеальным инструментом для обнаружения таких скрытых угроз в киберсреде, как это было в данном конкретном приложении:
- «Возможность подключения к структурированным потокам данных без учета семантики позволила механизму социальной физики эффективно обрабатывать потоки, написанные на иностранных языках, таких как арабский, урду или фарси, которые многие основные инструменты анализа данных не могут легко обработать».
2. «Точно так же использование кодовых слов, уклончивое поведение или любые другие попытки замаскировать свои намерения, деятельность или социальные связи с помощью метаданных или языковых манипуляций - часто встречающиеся в случаях использования кибертерроризма и разведки - могут быть легко расшифрованы (или точнее, обошли стороной) с помощью социальной физики ».
3. «Традиционный анализ интеллекта часто напоминает долгий процесс поиска множества частей единой головоломки и скрупулезного их соединения, раскрывая скрытую историю. С другой стороны, используя социальную физику ... движок социальной физики получает от аналитика «свободную нить» в качестве входных данных и автоматически просеивает сотни наиболее релевантных частей, готовых к тому, чтобы аналитик мог быстро просмотреть их и построить полную глобальную рисунок."
Вторая заявка повлекла за собой обнаружение мошеннической деятельности с биткойнами. Поскольку в транзакциях с биткойнами не участвует центральный орган или доверенная третья сторона, он стал предпочтительным способом оплаты для множества игроков в киберпреступность. Кроме того, хотя инфраструктура, основанная на блокчейне биткойнов, обладает высокой степенью безопасности, биржи биткойнов на протяжении многих лет неоднократно взламывались. А как только биткойны украдены, вернуть их практически невозможно. Если вы сохранили биткойны на взломанной бирже, они практически потеряны.
Вся история транзакций с биткойнами публично доступна в цепочке блоков биткойнов, хотя вся идентификационная информация зашифрована. Тем не менее, социальная физика может использоваться для анализа таких зашифрованных цепочек биткойнов в поисках кластеров транзакций, которые кажутся слишком коррелированными. «Это делается путем обнаружения шаблонов транзакций Биткойн, которые, как диктует социальная физика, вряд ли возникнут спонтанно. Эти поведенческие корреляции затем могут быть сопоставлены с заданным набором положительных меток (например, небольшой набор учетных записей Биткойн, которые, как известно, хранят украденные биткойны), что приводит к обнаружению поведенческих корреляций (каждая из которых представляет собой `` общность реального мира '') которые связаны с рассматриваемыми украденными биткойнами ».
Первоначально опубликовано на blog.irvingwb.com 1 октября 2018 г.