В 2009 году Барак Обама определил кибербезопасность как одну из самых серьезных экономических и национальных проблем безопасности, с которыми мы сталкиваемся как нация. Спустя более десяти лет количество и серьезность кибератак продолжали расти.
В то время как Энди Бочман, старший аналитик по кибербезопасности в Национальной лаборатории Айдахо, утверждает, что никакие расходы на защиту не защитят вас полностью от хакеров, лучше понять, какова ваша подверженность такому событию, и положить доллар его финансовые последствия позволяют лучше снизить кибер-риски на уровне фирмы. Но как оценить эту теоретическую потерю?
Можем ли мы использовать самые основные характеристики, определяющие компанию, для разумной количественной оценки ожидаемых потерь от потенциальной кибератаки?
Сэмюэл Максфилд и Кайл Ветцольд из Columbia Business School, а также Jianyao Fu и Thomas Mecattaf из Школы инженерии и прикладных наук Fu Foundation при Колумбийском университете рассказывают, как их команда работала вместе с Tail Risk, нью-йоркским стартапом в области кибербезопасности, над созданием элегантного решения. ответить на этот сложный вопрос с помощью статистического моделирования и расширенной аналитики.
Что такое кибератака?
Атака кибербезопасности («кибератака») — это попытка получить незаконный доступ к компьютеру или компьютерной системе с целью причинения ущерба или вреда. Как правило, злоумышленник ищет какую-то выгоду, часто денежную, от нарушения работы системы жертвы.
Распространенные типы кибератак:
- Атака распределенного отказа в обслуживании (DDoS)
- Вредоносное ПО
- Атака «человек посередине» (MitM)
- Фишинг
- SQL-инъекция
- Эксплойт нулевого дня
Что такое киберриск?
Риск кибербезопасности «киберриск» — это просто вероятность кибератаки или утечки данных в организации или организации.
Организации становятся более уязвимыми для киберугроз, поскольку они все больше зависят от компьютеров, сетей, программ, социальных сетей и данных в глобальном масштабе.
Согласно ежегодному отчету Cisco о кибербезопасности, общий объем киберсобытий увеличился почти в четыре раза в период с 2016 по 2018 год.
Кто такой хвостовой риск?
Компания Tail Risk, основанная в 2017 году Робертом Террином и Джоном Эдвардсом, предоставляет услуги и продукты в области кибербезопасности для измерения, управления и снижения киберрисков для инновационных организаций и сложных приобретений. Они предлагают экспертные знания в предметной области, подкрепленные запатентованными методами количественной оценки рисков, чтобы обеспечить и продемонстрировать безопасность в терминах, понятных бизнес-профессионалам. Благодаря мастер-классу Аналитика в действии, организованному Columbia Business School, нашей команде посчастливилось тесно сотрудничать с Tail Risk на протяжении всего жизненного цикла проекта, и мы смогли многому научиться благодаря их опыту в предметной области.
Данные о киберпотерях
Утечки данных выявили 4,1 миллиарда записей только в первой половине 2019 года, а средняя стоимость утечки данных выросла почти до 4 миллионов долларов. Учитывая огромный объем и воздействие киберсобытий, можно было бы ожидать, что данных о кибератаках и киберпотерях будет много; однако широко доступны ограниченные киберданные, что делает прогнозирование потенциального воздействия таких событий невероятно сложным. Желая избежать финансового и репутационного ущерба от киберсобытий и раскрытия уязвимостей злоумышленникам, фирмы, как правило, не желают публично заявлять о том, что инцидент произошел. В то время как регулирующие органы в ряде стран требуют от компаний раскрывать кибер-события, собранная информация часто не разглашается публично, или регулирующие органы не собирают данные, которые лучше всего информируют других о том, как количественно оценить и снизить риск. Этот пробел в данных следует учитывать при оценке приведенных ниже моделей.
Количественная оценка киберубытков — этап I
В нашем первоначальном анализе мы использовали набор данных, содержащий примерно 5000 кибератак (с данными о потерях) за 2011–2016 годы. Для каждого события нам были предоставлены дата, целевая страна, цель атаки, тип атаки и стоимость атаки. Учитывая разброс данных о стоимости атаки, мы решили сосредоточиться на средних 80% значений потерь.
Принимая во внимание размер исходного набора данных и отсутствие ковариатов на уровне компаний, мы решили сосредоточить внимание на моделировании катастроф, чтобы лучше понять, какой статистический подход можно использовать для измерения финансовых последствий кибератак.
Начиная с общего распределения кибератак и заканчивая ущербом и финансовыми потерями, понесенными фирмой, мы построили кибербезопасность Совокупный риск, Максимальный и вероятный риск убытков и Кривые превышения убытков, которые (на высоком уровне) позволили нам смоделировать вероятность и серьезность катастрофических киберсобытий. Вышеупомянутые кривые представлены ниже вместе с ключевыми выводами.
Количественная оценка киберубытков — этап II
В нашем последовательном анализе мы опирались на новый набор данных, содержащий примерно 90 000 киберсобытий, собранных из надежных и общедоступных источников. Несмотря на то, что набор данных содержал гораздо больше деталей и ковариатов, он страдал от ранее упомянутого «пробела в данных»: только 5 296 событий были связаны с ненулевыми значениями потерь. Сосредоточив внимание на оставшихся идентифицируемых событиях потерь, мы нацелились на разработку прогностической модели, которая использовала бы базовые данные на уровне компаний для обоснованного прогнозирования потенциальных потерь от кибератак. В качестве первого шага мы сначала повторно прогнали кривые моделирования катастроф Фазы I на новом наборе данных, чтобы посмотреть, можно ли их дополнительно уточнить. Несмотря на то, что структура кривых была в основном последовательной, были получены отраслевые данные, как указано ниже.
После того, как в нашем расширенном наборе данных была выполнена очистка данных, мы приступили к процессу выбора признаков. Учитывая, что мы хотели предсказать значения убытков, используя легкодоступные данные на уровне компаний, мы в конечном итоге решили использовать сектор NAIC, годовой доход, количество сотрудников и статус в Fortune 1000 (1, если в Fortune 1000; 0, если нет) в качестве основного. особенности наших прогностических моделей в будущем.
Наш процесс выбора модели был сосредоточен на дереве решений и регрессии как на основных аналитических путях.
Сначала сосредоточившись на деревьях решений, мы попробовали простые деревья решений и экстремальное повышение градиента (XGBoost), прежде чем остановились на модели случайного леса, которая имела самую низкую среднюю абсолютную ошибку (MAE) из трех. Для контекста, случайные леса — это ансамблевый метод обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений во время обучения и вывода класса, который является режимом классов (классификация) или средним предсказанием (регрессия). отдельные деревья.
Что касается регрессии, мы сначала попробовали регрессии LAD, Linear, Logistic и Ridge & LASSO, прежде чем определить, что регрессор Gaussian Process Regressor («GPR») работает лучше всего и имеет значительно более низкую MAE. GPR — это мощный непараметрический байесовский подход к задачам регрессии, который можно использовать в сценариях разведки и эксплуатации. GPR вычисляет распределение вероятностей по всем допустимым функциям, которые соответствуют данным. Наш вариант использования заключался в том, что мы указали сектор NAIC перед обучением модели, а это означает, что для каждого сектора GPR имел другое апостериорное распределение, на котором обучалась отраслевая модель. Поскольку сектора в нашем наборе данных были асимметричными (как по размеру, так и по диапазону прогнозируемых потерь), GPR использовал разнообразие, а не наказывал его.
Определив наше лучшее дерево решений (случайный лес) и модель регрессии (GPR), мы сравнили результаты каждой из них, чтобы определить, какие из них в конечном итоге следует использовать для прогнозирования значений потерь. Удивительно, но ни одна из моделей не показала лучших результатов во всех секторах, и MAE для каждой из них в целом был одинаковым. Для секторов с меньшим объемом данных георадар работал лучше, и, учитывая его простоту использования и способность более легко взаимодействовать с вводом данных пользователем, мы в конечном итоге сосредоточились на георадаре. Тем не менее, мы построили окончательную модель, которая учитывает анализируемый сектор и использует наилучшую методологию моделирования, наиболее подходящую для этого сектора.
Прецедент
Чтобы проиллюстрировать наши результаты, мы создали тестовый пример, представив себя на месте Tail Risk.
Для простоты мы представили, что Tail Risk предлагает свои услуги консультационной фирме по слияниям и поглощениям, проводящей комплексную проверку компании А.
Компания А работала в сфере финансов и страхования, имела 1000 сотрудников, годовой доход в 1 млн долларов и не входила в список Fortune 1000. В качестве Tail Risk мы запустили нашу прогнозирующую модель GPR, чтобы определить потенциальные убытки компании А от кибератак, и сравнили эти ожидаемые убытки с потерями аналогичных компаний в других отраслях. Результаты модели можно найти ниже, где значение убытков компании А выделено жирным шрифтом и обведено кружком. Учитывая профиль компании А, мы прогнозировали, что компания А понесет убытки в размере 6 601 846 долларов США в результате кибератаки. По сравнению с компаниями с идентичными характеристиками в различных отраслях, это ожидаемое значение убытка было отнесено к категории убытков среднего уровня, и Tail Risk может адаптировать свои рекомендации для фирмы с учетом ожидаемых убытков компании А, любых сильных или слабых сторон фирмы или отрасли. .
Извлеченные уроки
Хотя в конечном итоге нам удалось успешно построить прогностическую модель, которая количественно определяла ожидаемые потери от потенциальных кибератак, ограниченная доступность данных о кибератаках была постоянной темой на протяжении всего проекта. Для того чтобы фирмы могли лучше оценивать и снижать риски, важно, чтобы регулирующие органы и государственно-частные партнерства продолжали добиваться большей прозрачности, более тесной коммуникации и стандартизированной таксономии.