Как методы машинного обучения (ML) в настоящее время используются в кибербезопасности?

По мере того, как количество данных, создаваемых ежедневно, увеличивается (уже предположительно составляет 2,5 квадриллиона байтов в день [1]), методы машинного обучения позволяют нам группировать, организовывать и превращать эти данные в полезную информацию. Это особенно верно в сфере кибербезопасности.

Не пугайтесь термина Машинное обучение. На самом деле он просто означает компьютер, который может научиться что-то делать без явного программирования для этой задачи. Этот процесс обычно включает в себя обучение машины выполнению задачи (т. е. категоризации некоторых точек данных) с некоторыми известными данными, а затем ее освобождение для выполнения той же задачи с некоторыми неизвестными данными.

Давайте кратко рассмотрим, как мы ежедневно сталкиваемся с машинным обучением в сфере кибербезопасности.

Фильтрация спама

Вы когда-нибудь задумывались, как Google может точно идентифицировать спам и фильтровать его из вашего почтового ящика? Я не собираюсь притворяться, что знаю все тонкости того, как Google это делает, но на базовом уровне все начинается с обучения программы на известном наборе данных, который представляет собой смесь спамовых и не спамовых писем. Рассчитывается вероятность того, что электронное письмо является спамом, учитывая, что оно содержит определенные слова или фразы, такие как «заем» или «знакомство с одинокими людьми», и программа может классифицировать электронное письмо как спам, если эта вероятность превышает определенный порог. Некоторые другие переменные, такие как качество грамматики или наличие отправителя в ваших контактах, также могут быть учтены и добавлены в этот расчет вероятности. В странном случае, когда мы получаем спам по электронной почте в наш почтовый ящик, мы можем пометить его как спам. Эти помеченные электронные письма затем могут стать частью краудсорсингового обучающего набора, на котором спам-фильтр может продолжить обучение. Со временем машина выстраивает довольно сильную модель того, что представляет собой спам-письмо.

Тем не менее, мы должны подумать, что произойдет, если тысячи людей ошибочно пометят электронное письмо как спам или странная комбинация использования языка будет ошибочно помечена как спам. Машина может создать неверную предвзятость в отношении определенных типов электронной почты.

Мониторинг сети, обнаружение вторжений и антивирус

Аналогичные принципы можно использовать для таких задач, как мониторинг сети; однако вместо того, чтобы использовать помеченные данные, как вы это делаете со спамом, мы можем позволить компьютеру создавать свои собственные группы и классификации. Таким образом, в отличие от нашего примера со спамом, когда компьютер обучается на данных, которые, как мы знаем, являются спамом, в этом сценарии компьютер должен создавать свои собственные модели хорошего и плохого сетевого трафика.

Такие продукты, как DarkTrace, обнаруживают вторжения в сеть, отслеживая сетевой трафик и создавая картину того, как выглядит «нормальное» использование сети. Это особенно полезно, поскольку это означает, что атаки не должны быть явно описаны, чтобы система могла их обнаружить, они просто должны искать поведение, отличное от нормы.

Мы наблюдаем аналогичную революцию на рынке антивирусов. Cylance — новатор на рынке AV, основанный в 2012 году и оцененный в 1 млрд долларов в 2016 году [4]. Они натренировали свой основной продукт на массивном сборе данных о различных типах файлов, чтобы построить модели характеристик («геном файла») каждого типа файлов. Это позволяет машине обнаруживать нехарактерные файлы и помечать их для пользователя. Этот подход кажется более надежным, чем методы распознавания подписи, используемые в более классических антивирусных продуктах.

Ограничения

Реализации машинного обучения ограничены их зависимостью от хороших (чистых) обучающих данных. «Норма» должна быть установлена, прежде чем мы сможем искать аномалии. Эти алгоритмы могут постоянно обучаться под наблюдением людей в цикле обратной связи, но существует тонкая грань, которую необходимо соблюдать между помощью и запрещением использования, для которого они предназначены. Понятно, что некоторые алгоритмы машинного обучения ошибаются из-за осторожности, что может привести к сообщениям о ложных срабатываниях. На Reddit есть много сообщений от системных администраторов, которые сообщают, что теперь они тратят много времени на изучение и внесение в белый список программ и файлов, которые эти продукты ошибочно считают вредоносными. Можем ли мы предположить, что эти проблемы исчезнут по мере увеличения объема данных, на которых машины будут учиться?

Появление машинного обучения в сфере кибербезопасности знаменует собой захватывающую новую эру в обнаружении угроз, а также неизбежную инновационную реакцию со стороны преступных хакеров. Будет интересно посмотреть, как хакеры найдут способы обойти эти технологии; настоящее испытание человека против машины!

В XQ Labs мы руководствуемся миссией максимально разумного использования данных сканирования. Мы изучаем методы машинного обучения для анализа огромного массива данных об уязвимостях, которые мы собираем из CyberScore, и открываем инновационные способы предоставления информации об угрозах нашим пользователям.

Том Даффи и Исаак Мэтьюз

Ресурсы:

  1. https://www.trendmicro.com/vinfo/us/security/news/security-technology/is-big-data-big-enough-for-machine-learning-in-cybersecurity
  2. https://www.domo.com/learn/data-never-sleeps-5?aid=ogsm072517_1&sf100871281=1
  3. https://www.analyticsvidhya.com/blog/2018/07/using-power-deep-learning-cyber-security/
  4. https://techcrunch.com/2016/06/09/cylance-fighting-malicious-hackers-with-ai-hits-1b-valuation-after-raising-100m/
  5. https://www.wsta.org/wp-content/uploads/2017/03/math-vs-malware-20160422.pdf

Следите за нами в Facebook, Twitter и LinkedIn