Я сдал экзамен по специальности машинного обучения AWS в декабре 2022 года, и вот как я это сделал.

Официальное резюме экзамена и рекомендуемые ресурсы AWS можно найти здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/

Хотя у меня не было:

«практический опыт разработки, проектирования и запуска рабочих нагрузок машинного обучения или глубокого обучения в облаке AWS»

У меня был некоторый опыт работы с машинным обучением в Microsoft Azure, и я недавно прошел курс AWS Certified Cloud Practitioner (частично с помощью Microsoft Learn Сравнение сервисов AWS и Azure)

Я также познакомился с концепциями машинного обучения благодаря нескольким замечательным курсам Эндрю Нг на Coursera: https://www.coursera.org/collections/machine-learning, которые предоставили отличная отправная точка для основ.

Самый полезный курс — Машинное обучение с учителем: регрессия и классификация.

Я также имел некоторое представление об основных концепциях обработки данных.

Я понял, что из-за незначительного опыта работы с AWS это будет сложно, но я чувствовал, что справлюсь с задачей, имея общее представление об машинном обучении и несколько лет опыта работы с облаком в целом.

Имея это в виду, вот краткое изложение того, что я нашел наиболее полезным при сдаче этого экзамена с моим опытом.

Учебные материалы AWS

План машинного обучения AWS Skill Builder оказался полезным, несмотря на то, что большинству материалов в то время было уже несколько лет.

В частности, чрезвычайно полезным оказалось Изучение набора инструментов для машинного обучения, которое помогло мне лучше понять, насколько богаты предложения AWS и сколько проблем машинного обучения не нужно решать, создавая новую модель из царапать. Хотя это и не составляет большую часть экзамена, я считаю, что инструменты, представленные в этой серии, бесценны как для практиков, так и для разработчиков программного обеспечения.

Было бы упущением с моей стороны не упомянуть, что не все услуги были описаны выше. Было бы трудно не заметить появление DataBricks в последние несколько лет как естественное развитие Apache Spark , о котором необходимо знать большинству специалистов по машинному обучению и науке о данных.

Точно так же в зависимости от домена, бесценного хранилища неструктурированных данных и типов сервисов, которые могут индексировать эти источники, например AWS Kendra.

План машинного обучения: Элементы науки о данных был особенно актуален для экзамена. Он помог освежить в памяти некоторые основы машинного обучения, но, кроме того, помог по-новому взглянуть на то, чему я научился на соответствующих курсах Coursera . Простого переформулирования темы может быть достаточно, чтобы внести новые фундаментальные идеи, которые могут сделать материал незабываемым.

План машинного обучения: Разработка приложений машинного обучения также был особенно полезен. Хотя это всего лишь введение в некоторые функции OOTB (из коробки) SageMaker, оно помогло подчеркнуть, насколько богата среда SageMaker, и привело к следующему пункту.

SageMaker

Имея небольшой опыт работы с платформой, знакомство с ее функциями было необходимо для сдачи экзамена (документация SageMaker https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html)

  • Label Data: и GroundTruth особенно полезны для понимания того, какие существуют варианты, в отличие от попыток вручную организовать весь процесс с помощью некоторых другие средства.
  • Автопилот: отличная отправная точка для определения возможности решения. Стоит ознакомиться.
  • Встроенные алгоритмы: С точки зрения создания модели с нуля, с ограниченным использованием некоторых инструментов, специфичных для платформы, это действительно помогло мне понять, что было там. Я предлагаю ознакомиться со всеми алгоритмами, какие типы данных они принимают и когда выбирать один против другого.
  • Экземпляры ноутбуков: оптимизация и защита их и связанных с ними источников данных. Имея опыт разработки программного обеспечения, я лишь постепенно осознаю, что должен отказаться от контроля над своей средой разработки на локальной машине. Понимание преимуществ политики безопасности AWS и SageMaker по умолчанию и IAM имеет неоценимое значение.
  • Развертывание моделей для логического вывода: Если модель не развернута и не работает, ее ценность для бизнеса незначительна. Пакетная обработка, непрерывная обработка, синее/зеленое развертывание, канареечное смещение трафика и другие методы поэтапного развертывания бесценны в ответственном, повторяемом процессе развертывания. Также оказалось полезным знакомство с Elastic Inference.
  • Безопасность и управление: часто идут рука об руку, и ни к одному из них не следует относиться как к людям второго сорта при разработке эффективного рабочего пространства.
  • Мониторинг: по мере запуска моделей важно отслеживать их производительность, к счастью, SageMaker имеет тесную интеграцию с CloudWatch и CloudTrailобеспечение согласованности на платформе

Основы машинного обучения

Выполнение вышеперечисленных пунктов будет недостаточным для успешной сдачи экзамена. В начале этой статьи предполагается, что вам уже нужно быть знакомым со многими основами машинного обучения, а именно:

  • Логистическая регрессия и линейная регрессия
  • Специализированные сети, такие как RNN и CNN.
  • NN и глубокое обучение
  • Трансферное обучение
  • Оценка моделей, особенно моделей классификации, может привести к путанице.
  • Настройка гиперпараметров, регуляризация, скорость обучения и т. д.
  • Компромисс смещения/дисперсии и как его решить

Инжиниринг данных

Также необходимо было знать, как эффективно обслуживать данные для моделей машинного обучения как в облаке, так и на периферии, а именно:

  • Знание основ ETL.
  • Как использовать AWS Glue
  • Map Reduce и AWS EMR
  • Когда следует рассматривать ML на периферии и что предлагает AWS IoT Greengrass
  • Потоковое против пакетного
  • Как передавать данные экономически эффективным способом, например. чем отличаются предложения Kinesis?
  • Как преобразовать сервер данных и бессерверный
  • Как получать данные в различных форматах, т. е. структурированные и неструктурированные хранилища данных в AWS, и как их следует защищать
  • Предложения по хранению: S3, EBS, EFS, RDS, DynamoDB и т.д.

Я бы посоветовал посетить соответствующие страницы продукта и погрузиться в документацию для разработчиков.

Тестовые экзамены

Я сдал 2 тестовых экзамена, оба предоставлены AWS:

  • Сертифицированное машинное обучение AWS — образцы специальных вопросов доступны здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/
  • Готовность к экзамену: Сертифицированное машинное обучение AWS — специальность плана машинного обучения AWS Skill Builder.

Я просмотрел некоторые другие варианты в Интернете, стремясь получить как можно больше практики, но вопросы оказались умозрительными и не так хорошо сформулированными, как контент, созданный AWS.

Краткое содержание

Даже при знакомстве с платформой AWS большинство практиков вряд ли осознают, насколько обширны предложения AWS.

Приступая к экзамену только с общими знаниями в области разработки машинного обучения, я бы не был готов к некоторым нюансам в области проектирования и развертывания данных или к тому, какие решения Auto ML более удобны для разработчиков. Точно так же незнание некоторых встроенных алгоритмов SageMaker было бы существенным недостатком.

Подготовка к экзамену AWS Machine Learning Specialty расширила мой набор навыков и позволила мне лучше понять, насколько даже за последние несколько лет усовершенствовались некоторые инструменты машинного обучения, особенно Auto ML.