Оценка методов машинного обучения для обнаружения распределенных атак типа «отказ в обслуживании» для определения наиболее точных методологий, способствующих обеспечению безопасности сетевой цифровой инфраструктуры.
Абстрактный
Атаки распределенного отказа в обслуживании (DDoS), когда скомпрометированные системы используются для переполнения цели огромным объемом трафика, представляют серьезную угрозу для доступности и безопасности цифровых сетей. По мере того, как эти атаки становятся все более изощренными и масштабируемыми, существует острая необходимость в разработке эффективных методов обнаружения DDoS-атак для смягчения их воздействия. Используя набор данных о безвредных и опасных (DDoS) сетевых потоках, в этом исследовательском документе оцениваются и сравниваются различные методы машинного обучения для обнаружения DDoS-атак, чтобы определить наиболее точные методологии, способствующие обеспечению безопасности сетевой цифровой инфраструктуры. В исследовании проводится вывод признаков и преобразование переменных в наборе данных, а затем создается и обучается несколько различных моделей машинного обучения. Результаты этого исследования дают количественную оценку эффективности каждого проверенного метода машинного обучения при выявлении DDoS-атак. Случайный лес (99,24%) показал лучшие результаты с точки зрения точности обнаружения. Дерево решений также было точным (98,68%) при обнаружении потоков DDoS, а логистическая регрессия была наименее точной (71,81%). Эти результаты демонстрируют важность выбора подходящих моделей машинного обучения для повышения устойчивости систем сетевой безопасности к DDoS-атакам. Кроме того, исследование подчеркивает необходимость дальнейшего изучения с использованием дополнительных моделей машинного обучения для разработки более эффективных и надежных стратегий обнаружения. В конечном счете, результаты этого документа способствуют усилиям по обнаружению DDoS-атак и улучшению общего состояния безопасности цифровых сред.
Ключевые слова: DDoS, DDoS-атака, распределенный отказ в обслуживании, кибербезопасность, безопасность, кибератака, сетевые потоки, машинное обучение, случайный лес, дерево решений, логистическая регрессия.
Введение
В сегодняшнем взаимосвязанном цифровом ландшафте масштабы и значимость кибератак стремительно растут, что делает их постоянно растущей угрозой. Кибератаки — это вредоносные действия, нацеленные на компьютерные системы, сети или данные с целью компрометации, нарушения или получения несанкционированного доступа (Li & Liu, 2021). Они охватывают целый ряд вредоносных действий, от утечки данных до атак программ-вымогателей и фишинга. Однако особенно серьезной угрозой стали распределенные атаки типа «отказ в обслуживании» (DDoS). Эти атаки включают переполнение целевой системы или сети огромным объемом трафика, что делает ее недоступной для законных пользователей и нарушает работу важных служб (Rubin et al., 2000).
Выявление вредоносного трафика в компьютерных системах может быть достигнуто за счет использования алгоритмов машинного обучения при анализе и обнаружении DDoS-атак для повышения безопасности компьютерных сетей (Kaur et al., 2017). Модули обнаружения DDoS-атак анализируют собранные данные, чтобы оценить риск безопасности, связанный с сетевыми подключениями, в то время как алгоритмы машинного обучения, обученные на предыдущих задачах и обратной связи, расширяют свои возможности прогнозирования за счет адаптивных изменений (Sarker, 2021).
В этом исследовании рассматриваются различные методы машинного обучения для обнаружения и анализа DDoS-атак, при этом исследуются и сравниваются их соответствующие точности и пригодность. Этот анализ проводится для (1) защиты компьютерных сетей и онлайн-сервисов от разрушительных и потенциально опасных кибератак, (2) защиты целостности данных и (3) поддержания общей стабильности и функциональности цифровой экосистемы.
В этой статье сначала обсуждаются технические аспекты работы DDoS-атаки. Далее приводится реальный пример DDoS-атаки. Затем он детализирует соответствующий набор данных и исследует методологию вместе с визуализациями. Эта статья завершается оценкой эффективности и анализом результатов исследования.
Фон
DDoS-атаки представляют собой распространенную и разрушительную форму кибератаки, предназначенную для подавления и паралича целевых компьютерных систем или сетей. Основная техника, используемая в DDoS-атаках, заключается в том, чтобы залить цель огромным объемом трафика, что делает ее неспособной нормально функционировать и запрещает доступ законным пользователям (Cloudflare, 2023).
Как показано на рис. 1, DDoS-атаки используют мощь нескольких скомпрометированных устройств, образуя так называемую ботнет. Эти устройства ранее были заражены вредоносным ПО, что позволяет злоумышленникам удаленно управлять ими. Злоумышленники дают команду ботнету направить огромный объем трафика в целевую систему, используя ее ограничения и подавляя ее ресурсы (Fortinet, 2023).
Трафик, используемый в DDoS-атаках, может принимать различные формы, такие как HTTP-запросы, UDP- или TCP-пакеты или даже нелегитимные запросы к определенным службам. Цель состоит в том, чтобы исчерпать вычислительную мощность, пропускную способность или другие критически важные ресурсы цели, что в конечном итоге приведет к ухудшению качества обслуживания или полной недоступности.
Масштабы и сложность DDoS-атак с годами значительно выросли, что делает борьбу с ними серьезной проблемой (Department of Homeland Security, 2023). Противодействие этим атакам требует упреждающего мониторинга, обнаружения и анализа, которые могут выявлять и отфильтровывать вредоносный трафик, позволяя легитимному трафику достигать намеченного пункта назначения.
Рисунок 1
Процесс DDoS-атаки
Тематическое исследование
В 2018 году GitHub, широко используемая платформа для размещения кода, подверглась одной из крупнейших и наиболее значительных DDoS-атак в истории (Microsoft, 2023). Атака была нацелена на инфраструктуру GitHub, нарушив работу его сервисов и вызвав волновой эффект в Интернете. Инцидент пролил свет на масштабы и серьезность DDoS-атак и их способность нарушить работу даже высокоустойчивых онлайн-платформ.
Атака на GitHub достигла беспрецедентного пикового объема трафика в 1,35 терабит в секунду (Тбит/с), превысив любую ранее зарегистрированную атаку (Kottler, 2018a). Он был выполнен с использованием ботнета — сети скомпрометированных устройств, находящихся под контролем злоумышленников. Злоумышленники использовали этот ботнет, чтобы залить серверы GitHub огромным количеством ложного трафика, направленного на истощение ресурсов платформы и на то, чтобы сделать ее недоступной для законных пользователей (Newman, 2018).
Атака на GitHub послужила тревожным звонком в отношении уязвимостей безопасности в цифровых экосистемах и возможности их использования для крупномасштабных атак. Более того, атака на GitHub подчеркнула взаимосвязанность и взаимозависимость онлайн-сервисов. Нарушение, вызванное атакой, распространилось за пределы собственной платформы GitHub, затронув другие службы, которые полагались на GitHub для размещения кода и совместной работы. Известные веб-сайты и организации, в том числе популярные потоковые сервисы, столкнулись с проблемами производительности и перебоями в обслуживании из-за того, что они полагались на инфраструктуру GitHub (Kottler, 2018b).
Последствия DDoS-атаки GitHub были далеко идущими. Атака вызвала широкую озабоченность и обсуждение состояния кибербезопасности и необходимости усовершенствованных стратегий смягчения последствий DDoS-атак. Инцидент также подчеркнул важность сотрудничества между онлайн-платформами, интернет-провайдерами и службами безопасности для быстрого выявления и смягчения таких атак.
Набор данных
В этом исследовании используются данные, предоставленные Канадским институтом кибербезопасности (CIC) о сетевых потоках, последовательностях пакетов данных, которыми обмениваются источник и пункт назначения (Goldberg et al., 1989). Потоки DDoS, извлеченные из разных общедоступных наборов данных CIC Intrusion Detection System, созданных в разные годы, были объединены с «безопасными» потоками, извлеченными из тех же базовых наборов данных, и объединены в один большой набор данных, используемый в этом исследовании. Набор данных, использованный в рамках этого исследования, содержит в общей сложности 12794627 точек данных (строк) и 85 признаков (столбцы). Каждая точка данных соответствует одному сетевому потоку (прямому или обратному), который либо является безопасным, либо является частью DDoS-атаки (Kaggle, 2019).
Сценарии DDoS-атак для создания экспериментальных потоков в наборе данных этого исследования включали 50 машин в атакующей инфраструктуре и 420 машин с 30 серверами на стороне жертвы (CIC, 2018).
В наборе данных этого исследования нет пропущенных или повторяющихся значений. Каждая функция (переменная) в наборе данных имеет тип данных либо целые числа, либо числа с плавающей запятой, за исключением атрибутов идентификатора и целевой переменной, которые являются строковыми объектами. Идентификаторы предоставляют контекст о потоках, включая идентификатор потока, IP-адрес источника и порт назначения. Поскольку в этом случае идентификаторы несут мало информации, подходящей для построения моделей машинного обучения, нет необходимости копаться в них данных, поэтому их можно удалить из списка прогнозируемых переменных.
Продолжая уменьшать размеры нашего набора данных, чтобы уменьшить количество функций, бесполезных для моделей машинного обучения, при сохранении той же степени точности, было проанализировано статистическое описание каждого столбца. Переменные со стандартным отклонением ниже 1 отбрасываются, чтобы уменьшить однородность набора данных. Кроме того, целевая переменная была преобразована в двоичный формат, чтобы удалить все строковые объекты из набора данных, где 0 представляет «безопасные» потоки, а 1 — потоки «DDoS», поскольку в этом исследовании стремились прогнозировать атаки DDoS. Столбцы, содержащие значение inf (бесконечность), были удалены, чтобы в дальнейшем упростить построение модели машинного обучения. В процессе выделения признаков было удалено всего 26 признаков, и исследование продвинулось вперед с набором данных с 59 столбцами, включая целевую переменную.
Визуализации
Чтобы визуализировать распределение целевой переменной исследования и отобразить ее количество и процентное содержание в наборе данных, была построена гистограмма и создана круговая диаграмма. ДДоС = 1; Доброкачественный = 0
Рисунок 2а
Целевое распределение переменных: гистограмма
Рисунок 2b
Целевое распределение переменных: круговая диаграмма
Для визуализации корреляции между независимыми переменными (признаками) и целевой переменной набора данных была создана тепловая карта. Тепловая карта показывает корреляцию с использованием цветов вместо чисел, при этом более темные цвета указывают на более высокую корреляцию, а более светлые цвета указывают на более низкую корреляцию.
Рисунок 3
Тепловая карта корреляции
Методология
В этом исследовательском документе представлен процесс обнаружения DDoS с использованием алгоритмов машинного обучения, подходящих для задач классификации, с выделением различных этапов и задействованных компонентов. Методология этого исследования представлена на рисунке 4, и для лучшего понимания подхода машинного обучения он иллюстрирует процесс от начала до конца.
Рисунок 4
Процесс методологии
Поскольку очистка данных и процесс EDA были проведены ранее (включая вывод признаков и преобразование переменных), данные можно использовать для обучения различных моделей машинного обучения (ML). Поскольку это исследование представляет собой проблему классификации, в нем строится несколько алгоритмов машинного обучения для обнаружения потоков DDoS:
Логистическая регрессия: метод машинного обучения, используемый для задач бинарной классификации. Он моделирует взаимосвязь между входными характеристиками и вероятностью определенного результата, используя логистическую функцию для оценки вероятности принадлежности к классу. Он широко используется благодаря своей простоте, интерпретируемости и эффективности в различных областях (Xu et al., 2023).
Дерево решений: универсальный и интерпретируемый алгоритм машинного обучения, который использует древовидную структуру для прогнозирования путем рекурсивного разбиения данных на основе значений признаков. Он создает серию правил «если-иначе», которые приводят к классификации или прогнозированию целевой переменной (Xu et al., 2023).
Случайный лес: ансамблевый алгоритм машинного обучения, который объединяет несколько деревьев решений для прогнозирования. Он создает разнообразный набор деревьев, используя случайные подмножества функций и выборок из обучающих данных. Окончательный прогноз определяется путем объединения прогнозов отдельных деревьев (Xu et al., 2023).
Хотя существуют исследования, которые прогнозируют кибератаки с использованием методов машинного обучения, некоторые из них принимают во внимание меньше входных атрибутов для формирования выводов. Поскольку модели машинного обучения в этом исследовании обучаются на наборах данных, содержащих более 50 независимых переменных, учитывается широкий спектр факторов, которые могут привести к более точным прогнозам того, является ли поток вредоносным (DDoS) или безопасным (Khalaf, 2019).
Оценка эффективности
В этом исследовании использовались алгоритмы машинного обучения и классификаторы для изучения сетевых потоков, которые были либо безопасными, либо DDoS. После создания каждой модели машинного обучения результаты их соответствующей точности в обнаружении DDoS-атак и матриц путаницы приведены ниже. Показатели точности рассчитываются по соотношению истинно положительных результатов (модель предсказывает DDoS как DDoS) и истинно отрицательных результатов (модель предсказывает доброкачественный как доброкачественный) — верхнего левого и нижнего правого полей матрицы — с общим количеством случаев.
Логистическая регрессия | Показатель точности: 71,81%
Рисунок 5а
Матрица путаницы: логистическая регрессия
Дерево решений | Оценка точности: 98,68%
Рисунок 5b
Матрица путаницы: дерево решений
Случайный лес | Оценка точности: 99,24%
Рисунок 5c
Матрица путаницы: случайный лес
Оценки точности и матрицы путаницы показывают, что Random Forest имеет самую высокую точность (99,24%) в прогнозировании того, являются ли потоки DDoS. Однако показатель точности дерева решений очень близок к показателю случайного леса и составляет 98,68%. Логистическая регрессия имеет самую низкую точность с показателем 71,81%.
В этом исследовании подчеркивается сравнительная эффективность различных методов машинного обучения при обнаружении DDoS-атак. Благодаря анализу показателей точности машинного обучения это исследование показывает, что Random Forest обладает наилучшей производительностью для стратегии обнаружения DDoS, а дерево решений занимает второе место в плане обнаружения и идентификации потоков DDoS. Самый слабый метод, логистическая регрессия, стоит на третьем месте среди протестированных методов из-за самого низкого показателя точности. Таким образом, случайный лес и дерево решений могут наиболее точно идентифицировать потоки как часть атаки DDoS и являются лучшим выбором для обнаружения DDoS.
Это исследование дает представление о выборе подходящих моделей машинного обучения для обнаружения DDoS. Те, кто занимается кибербезопасностью, могут использовать эти результаты для принятия обоснованных решений относительно выбора алгоритмов машинного обучения для систем обнаружения DDoS, повышая их способность быстро и точно выявлять и смягчать атаки DDoS, укрепляя общую безопасность сетевой инфраструктуры (Bhuyan , 2014).
Заключение
DDoS-атаки становятся все более масштабными и частыми, а сети и онлайн-сервисы находятся под угрозой разрушительных и разрушительных кибератак (Zargar et al., 2013). Используя единый набор данных с потоками, извлеченными из наборов данных Канадского института кибербезопасности за разные годы, эта исследовательская работа направлена на изучение различных методов машинного обучения для обнаружения и анализа DDoS-атак (идентификация опасных и безопасных сетевых потоков). В исследовании также проводится сравнение и оценка их точности с целью определения наиболее подходящих методов, которые можно использовать для защиты онлайн-систем.
Результаты показывают, что Random Forest (99,24%) показал лучшие результаты с точки зрения точности обнаружения. Дерево решений также было точным (98,68%) при обнаружении потоков DDoS, а логистическая регрессия была наименее точной (71,81%). Этот анализ подчеркивает полезность различных методов машинного обучения для выявления DDoS; однако необходимы дальнейшие исследования с более широким спектром моделей машинного обучения (KNN, SVM, Naïve Bayes, XGB и т. д.), чтобы получить полное представление об их возможностях и ограничениях. Изучение различных методов может привести к разработке более эффективных и надежных инструментов и стратегий обнаружения. Анализ и обнаружение DDoS-атак с помощью алгоритмов машинного обучения является ключом к совершенствованию упреждающих мер безопасности и обеспечению безопасности услуг, критически важной сетевой инфраструктуры и цифровой сферы в целом.
Рекомендации
Бхуян, М.Х., Кашьяп, Х.Дж., Бхаттачарья, Д.К., и Калита, Дж.К. (2013). Обнаружение распределенных атак типа отказ в обслуживании: методы, инструменты и будущие направления. Компьютерный журнал, 57(4), 537–556. https://doi.org/10.1093/comjnl/bxt031
Набор данных DDoS. (н.д.). Kaggle: ваше сообщество по машинному обучению и науке о данных. https://www.kaggle.com/datasets/devendra416/ddos-datasets
Ддосд. (2022, 27 января). Национальная безопасность. https://www.dhs.gov/science-and-technology/ddosd
Ф. Лау, С. Х. Рубин, М. Х. Смит и Л. Трайкович. (2000). Распределенные атаки типа отказ в обслуживании. Материалы конференции Smc 2000, 3, 2275–2280. https://doi.org/10.1109/ICSMC.2000.886455
Голдберг А.В., Тардос Э. и Тарьян Р.Э. (1989). Алгоритмы сетевого потока. https://doi.org/10.21236/ada214689
ИДС 2016 | Наборы данных | исследования | Канадский институт кибербезопасности | УНБ. (н.д.). Университет Нью-Брансуика | УНБ. https://www.unb.ca/cic/datasets/ids-2016.html
ИДС 2017 | Наборы данных | исследования | Канадский институт кибербезопасности | УНБ. (н.д.). Университет Нью-Брансуика | УНБ. https://www.unb.ca/cic/datasets/ids-2017.html
ИДС 2018 | Наборы данных | исследования | Канадский институт кибербезопасности | УНБ. (н.д.). Университет Нью-Брансуика | УНБ. https://www.unb.ca/cic/datasets/ids-2018.html
Халаф, Б.А., Мостафа, С.А., Мустафа, А., Мохаммед, Массачусетс, и Абдуаллах, В.М. (2019). Всесторонний обзор искусственного интеллекта и статистических подходов в распределенных атаках типа отказ в обслуживании и методах защиты. IEEE Access, 7, 51691–51713. https://doi.org/10.1109/access.2019.2908998
Коттлер, С. (2018, 1 марта). Отчет об инциденте DDoS от 28 февраля. Блог GitHub. https://github.blog/2018-03-01-ddos-incident-report/
Ли, Ю., и Лю, К. (2021). Комплексное обзорное исследование кибератак и кибербезопасности; Новые тенденции и последние разработки. Отчеты об энергетике, 7, 8176–8186. https://doi.org/10.1016/j.egyr.2021.08.126
Махеш, Батта. (2019). Алгоритмы машинного обучения — обзор. Международный журнал науки и исследований. DOI: 10.21275/ART20203995
Команда Microsoft 365. (2023, 17 февраля). Топ-5 самых известных DDoS-атак. https://www.microsoft.com/en-us/microsoft-365-life-hacks/privacy-and-safety/top-5-most-famous-ddos-attacks#:~:text=The%20effects% 20из%20атак Mafiaboy%20,Tbps%20из%20информации%20в%20Google.
Наджафимер, М., Зарифзаде, С., и Мостафави, С. (2022). Гибридный подход машинного обучения для обнаружения беспрецедентных DDoS-атак. Журнал суперкомпьютеров, 78(6), 8106–8136. https://doi.org/10.1007/s11227-021-04253-x
Наст, К. (2018, 1 марта). GitHub пережил крупнейшую из когда-либо зарегистрированных DDoS-атак. ПРОВОДНОЙ. https://www.wired.com/story/github-ddos-memcached/
Парнит Каур, Маниш Кумар и Абхинав Бхандари. (2017). Обзор подходов к обнаружению распределенных атак типа отказ в обслуживании. Системоведение и техника управления, 5:1, 301–320. https://doi.org/10.1080/21642583.2017.1331768
Саркер, IH (2021). Машинное обучение: алгоритмы, реальные приложения и направления исследований. https://doi.org/10.20944/preprints202103.0216.v1
Что такое DDoS-атака? DDoS значение, определение и типы. (н.д.). Фортинет. https://www.fortinet.com/resources/cyberglossary/ddos-attack#:~:text=DDoS%20Attack%20Значение,подключено%20онлайн%20сервисов%20и%20сайтов
Что такое DDoS-атака. (н.д.). Cloudflare — компания, занимающаяся веб-производительностью и безопасностью | Cloudflare. https://www.cloudflare.com/learning/ddos/what-is-a-ddos-attack/
Заргар, С.Т., Джоши, Дж., и Типпер, Д. (2013). Обзор механизмов защиты от распределенных лавинных атак типа отказ в обслуживании (DDoS). IEEE Communications Surveys & Tutorials, 15(4), 2046–2069. https://doi.org/10.1109/surv.2013.031413.00127