Отказ от ответственности: ничто в этом блоге не связано с повседневной работой автора. Контент не является аффилированным лицом и не спонсируется какими-либо компаниями.
Это третья статья из серии блогов. Пожалуйста, не стесняйтесь проверить первый и второй.
Индустрия кибербезопасности и управления рисками всегда рассматривалась как центр затрат, который хакеры роста больше всего презирают. В то же время специалисты по безопасности должны обеспечивать общую безопасность своих систем и операций, чтобы поддерживать ценность бизнеса компании в долгосрочной перспективе. С точки зрения важности кибербезопасности для долгосрочной ценности бизнеса мы можем обсудить третью основную причину неспособности машинного обучения решить проблемы кибербезопасности: бессмысленные метрики оценки. Проще говоря, при установлении метрик оценки моделей данных для кибербезопасности мы иногда упускаем из виду мышление долгосрочной ценности для бизнеса.
Дискуссия о разработке оценочных метрик обычно не проводится в академическом сообществе, скорее всего, потому, что проблемы, изучаемые в статьях, носят общий характер и не зависят от деталей конкретных коммерческих продуктов, а также существуют относительно общие оценочные метрики, в то время как конкретные проблемы в промышленности более тесно связаны с их ценностью для бизнеса, и существует большая потребность в специалистах по данным, чтобы указать и связать эти общие показатели с продуктом и рыночной стоимостью.
Особое примечание для тех, кто читал китайскую версию https://toooold.com/2021/11/13/why_ml_fails_security_evaluation_cn.html: две версии имеют одно и то же основное содержание, но представляют его по-разному. По просьбе моих китайскоязычных друзей я уделил особое внимание исследованиям по моделированию данных на внутреннем рынке в китайской версии, где исследования иногда должны идти на компромисс, чтобы вписаться в представление о росте доходов. Безопасность следует рассматривать как актив, и стремление к росту никогда не является проблемой, но показатели должны выходить за рамки только дохода, верно?
Почему важны хорошие показатели
Должным образом определенные метрики задают направление, чтобы направлять данные и модели безопасности к их целям. Улучшения метрик могут быть непосредственно сопоставлены с ценностью для бизнеса, что приводит к целенаправленным улучшениям моделей данных и безопасности, а ценность для бизнеса, которую они приносят, обеспечивает постоянные инвестиции в модели. Например, увеличение скорости обнаружения вредоносного ПО на 1% может предотвратить заражение тысяч облачных хостов, а сокращение времени обнаружения WAF на 0,01 секунды повысит порог пропускной способности сети хостов клиентов для более эффективной защиты от атак и многого другого.
Лучшее обнаружение или лучшая защита, вот в чем вопрос. Индустрия кибербезопасности должна решать проблемы в динамичных и высококонкурентных средах, а неопределенность, создаваемая злоумышленником или средой, также может затруднить настройку показателей оценки. При оценке моделей обнаружения вторжений, например, если компания не подверглась эффективной атаке, у CISO может быть список вопросов, потому ли это, что моя модель обнаружения работает хорошо, или потому, что другая сторона не смогла прорвать первые несколько уровней защиты, или просто не удосуживается напасть на меня, или даже если она была пробита, а я об этом не знаю? Эти враждебные и динамические среды часто ставят команды специалистов по обработке и анализу данных в мрак при разработке моделей: с одной стороны, они хотят обнаруживать больше атак, а с другой стороны, они хотят обеспечить лучшую защиту, но лучшая защита означает меньшее количество атак. так как они оценивают показатели защиты? С одной и той же дилеммой сталкиваются различные команды управления рисками, группы безопасности и восстановления и так далее. «Никогда еще в области человеческих конфликтов столь многие не были обязаны столь немногим» (Уинстон Черчилль) *
, как мы можем улучшить показатели проектирования и оценки систем обнаружения и защиты, таких как Королевские ВВС и союзные истребители, которые участвовали в битве за Британию?
Мы обнаружили множество трудностей при установлении разумных показателей оценки: показатели, которые неточно отражают долгосрочную ценность бизнеса, часто сбивают направление исследований данных и моделей безопасности, и эти показатели часто вызывают конфликты между ростом бизнеса и защитой безопасности. В целом, хорошие показатели оценки служат важным связующим звеном между хорошими усилиями по моделированию и их ценностью для бизнеса, эффективно определяя направление усилий по моделированию, в то время как плохие показатели могут привести к тому, что хорошие модели будут работать в совершенно неправильном направлении, подвергая усилия по моделированию ненужному давлению.
Первая ошибка: метрики без целей
Сначала цели, потом показатели. Он является частью фонда науки о данных. К сожалению, «показатели без целей» внесли наибольший вклад в совокупность ошибок.
На уроке машинного обучения мы, должно быть, видели домашнюю задачу: почему мы не можем заменить функцию потерь метриками точности/отзыва при оптимизации? *
Помимо статистической причины априорного и апостериорного принятия решений, мы можем понять это интуитивно: умному агенту нужна функция потерь, чтобы указать направление оптимизации (цель), в то время как точность/отзыв может использоваться только человеком. чтобы судить о принятии решений (показатели), иначе агент мог бы обмануть, чтобы максимизировать результаты в локальном минимуме вместо оптимизации для результатов.
Однако умные люди иногда теряются в принятии решений и путают цели с показателями, когда видят прибыль. Мы видели много студентов, которые гордятся тем, что их не поймали на списывании на экзаменах, и мы также видели крупные приложения, которые рассылают бесплатные льготы, чтобы стимулировать новую пользовательскую тенденцию, но не имеют достаточного количества функций продукта, чтобы удержать пользователей. Только с целями «твердых знаний» для студентов и «создания хорошего продукта» для приложений метрики могут быть значимыми.
Цель групп кибербезопасности и продуктов кибербезопасности состоит в том, чтобы защитить свои активы и активы клиентов от атак, при этом разные области имеют разные подцели и показатели для измерения степени достижения целей. Мы видели много показателей в отрасли, которые не точно отражают цель. Например, продукт SIEM, который утверждает, что развертывает 200 моделей обнаружения и генерирует тысячи предупреждений для клиентов, а не показатели, которые лучше отражают его бизнес-цели, такие как снижение утомляемости предупреждений, простота использования для поиска угроз и быстрое реагирование. Такая метрика, как «сколько предупреждений мы генерируем для клиентов», может показаться простой для количественной оценки, но ее абсурдность аналогична оценке эффективности пожарной станции на основе того, сколько пожаров она тушит, поскольку метрика, которая теряет свою цель, бессмысленна для бизнеса. ценить. Несколько других примеров: DDoS-продукты для блокировки атак со скоростью 2 Тбит/с без упоминания стоимости, пока клиент не получит огромный счет; платный канал информации об угрозах, состоящий из 500 тысяч новых IoC каждый день без упоминания вариантов использования и контекста разведки (и оказывается, что это предварительно вычисленный список DGA плюс несколько OSINT).
Метрики без целей могут казаться законными, что делает их опасными для работы по моделированию, потому что неправильная цель может привести к трате большого количества ресурсов и привести к еще большему заблуждению умных людей, что иногда позволяет им геймифицировать систему. Если покрытие используется в качестве метрики в модели аналитики угроз, модель может предположить, что все действия являются вредоносными, и создать большое количество событий, чтобы затопить команду SOC; если в качестве метрики используется точность обнаружения, то модели лучше ничего не сообщать, потому что нет прогноза — нет ошибки; и если объем оповещений используется в качестве метрики в продукте SIEM, модель будет генерировать большое количество оповещений без проверки и сортировки, чего достаточно, чтобы замедлить работу клиента. На практике это, казалось бы, иррациональное поведение может принимать различные формы.
2-й: метрики выглядят «здравым смыслом»
Статистические модели обучения предназначены для изучения статистических ожиданий целевого распределения, а это означает, что алгоритм всегда заинтересован в прогнозировании поведения группы большинства *
, поскольку группа большинства доминирует над статистическими ожиданиями целевого распределения. Применение обычных метрик точности-отзыва как таковых вместо понимания того, что алгоритм предпочитает искать поведение группы большинства, и разработка метрик для решения конкретной проблемы, не только не решает проблему, но и вызывает опасения по поводу эффективности алгоритма. В большинстве случаев алгоритм хорош, но используется неправильно из-за показателей «здравого смысла».
В кибербезопасности частотное распределение атак может быть крайне несбалансированным, при этом вторжение часто составляет всего одно из десяти миллионов или меньше, а сложность обнаружения каждой атаки значительно различается. Если предполагается, что модель классификатора имеет точность 90% для атак, лучше, чтобы модель ничего не обнаруживала, потому что отрицательные выборки на несколько порядков больше, чем положительные выборки, а одна выборка неправильной оценки достаточно, чтобы снизить уровень точности почти до нуля. Такие проблемы не могут быть решены с помощью несбалансированных методов выборки, и их необходимо выпрыгнуть из коробки.
В большинстве случаев кибербезопасности, таких как обнаружение уязвимостей нулевого дня, APT-атаки и т. д., истина отсутствует. В таких случаях модель данных требует скорости отзыва или даже «скорости отзыва неизвестных угроз», метрику, которую можно охарактеризовать как «даже не ошибочную». «Есть только два типа компаний: те, которые были взломаны, и те, которые будут взломаны». *
Мы тоже не можем дождаться взлома, чтобы подсчитать скорость отзыва. Влияние атаки вторжения на бизнес, например, утечка данных, которая будет замечена через несколько лет, или тот факт, что скомпрометированные данные продаются в даркнете, в то время как команда безопасности не знает об этом, имеет большое значение. Ограниченные сценарии атак также могут исказить эффективность модели, если она полагается исключительно на определенные инструменты тестирования атак, например, на приглашение внутренних атак красной команды для получения контрольных фактов. Если команда специалистов по обработке и анализу данных по какой-либо причине будет использовать аналогичную метрику, она потратит на это значительное количество ресурсов, в конечном итоге не решив проблему.
Интересное измерение «уникальная скорость обнаружения» обычно используется в оценке обнаружения на основе машинного обучения, например, обнаружение вредоносных программ на основе ML предполагает большее количество вредоносных примеров, то же самое с обнаружением URL-адресов спама на основе ML и т. д. «Уникальная скорость обнаружения» как сравнение числа выборок между методами машинного обучения и текущими методами или данными разведки кажется «здравым смыслом», но практически не имеет смысла:
- Коммерческая ценность обнаруженных образцов основана на бизнес-активах, на которые они могут повлиять, а не на количестве образцов, и процесс оценки игнорирует влияние временной последовательности обнаружения.
- Результаты моделей правил или сторонних каналов угроз с отсутствующими оценками качества недостаточны в качестве знаменателей для расчета уникальных коэффициентов обнаружения.
- Эти два типа моделей используют разные функции, но результаты моделей правил и моделей машинного обучения часто значительно перекрываются, и оценка только моделей машинного обучения при игнорировании уникальных показателей обнаружения моделей правил часто приводит к спорам о справедливости оценки.
Почетное упоминание: хорошие показатели, неправильная проблема
Мы также наблюдали множество случаев, когда проблемы кибербезопасности просто невозможно было решить с помощью машинного обучения или искусственного интеллекта, например, с помощью стороннего интеллекта для обнаружения неизвестных APT-атак; разработка обнаружения угроз на основе журналов, игнорируя необходимые усилия по сбору и хранению данных; а некоторые проблемы сами по себе требуют огромных инвестиций, которые не поддерживаются существующими ресурсами, чаще всего со стороны компаний, стремящихся развивать собственную малва. Все эти проблемы могут иметь четкие определения метрик, но сама цель приводит к неправильной проблеме, которую необходимо решить, что приводит к неудаче для команды специалистов по обработке и анализу данных.
Несколько советов по дизайну метрик
Из кровавых уроков, которые мы извлекли, у нас есть несколько советов.
Все показатели должны быть разработаны в тандеме с целями. Цель определяет ограниченный объем проблемы, и только в рамках этого объема можно предложить разумную метрику. Мы всегда должны следить за тем, чтобы цель была на первом месте, а показатели — это только средство достижения цели. Вместо того, чтобы спешить с метрикой, которая, кажется, имеет смысл, мы должны понимать потребность бизнеса в постановке целей, а специалисты по данным должны четко определять, когда появляются такие метрики, и предоставлять своевременную обратную связь, чтобы сказать «НЕТ!»
При планировании проблемы и постановке целей важно учитывать, является ли цель слишком большой или слишком маленькой, подходит ли сценарий для решения и находятся ли цели решения в пределах разумного бюджета ресурсов. Предлагается ссылаться на общепринятую промышленную практику в этой области и распределять ресурсы в зависимости от текущей ситуации.
«Уникальное обнаружение» — очень плохой показатель в целом, когда модели данных и модели правил противопоставляются друг другу или полагаются на внешние источники, игнорируя при этом влияние обнаруженных образцов на бизнес-активы, задержку обнаружения и другие факторы. Мы не рекомендуем использовать уникальный коэффициент обнаружения в качестве основной метрики для модели обнаружения; вместо этого мы можем использовать пересечение и установить, чтобы увидеть общий охват результатов обнаружения и влияние на активы; если нужно сравнивать модели, нужно смотреть на задержку времени обнаружения; мы также должны помнить, что модель машинного обучения улучшает результат модели правил, поэтому мы должны ориентироваться на «больше нуля», а не на 10% или 50% больше, и учитывать стоимость итеративных обновлений.
Что, если не существует таких вещей, как наземная правда или тест красной команды? В отсутствие наземной истины, что часто бывает, мы должны использовать как можно больше обнаружений аномалий и оценивать отзывы при объяснении, почему эти аномалии возникают. «Сколько аномалий можно объяснить?» может быть лучшим показателем для использования. При отсутствии теста красной команды показатели обнаружения атак можно оценить, используя поверхность атаки, которую защитник покрывает для бизнес-актива. Мы также должны проявлять инициативу и своевременно корректировать наши стратегии оценки в динамичной состязательной среде кибербезопасности.
Краткое содержание
Хорошие метрики могут эффективно позволить моделям данных и безопасности демонстрировать ценность для бизнеса в соответствующих областях бизнеса, и мы должны установить разумные метрики, которые соответствуют нашим целям. Группы специалистов по обработке и анализу данных также должны понимать, что алгоритмы всегда нацелены на то, чтобы предсказывать поведение большинства населения, и что метрики оценки должны быть рационально разработаны, чтобы извлечь выгоду из сильных сторон алгоритмических моделей.
Разумные метрики также могут помочь избежать ненужной или неправильной оптимизации модели. Независимо от того, может ли цель оптимизации модели иметь смысл, умный специалист по данным может проделать фантастическую работу по моделированию для этой цели, и чем больше оптимизация из разумных метрик приводит к большему количеству ошибок, чьи возможные потери для бизнеса и разочарование в работе должны быть более дорогостоящими. Выравнивать.
Ссылка
Первоначально опубликовано на https://toooold.com 12 декабря 2021 г.