Я сдал экзамен по специальности машинного обучения AWS в декабре 2022 года, и вот как я это сделал.
Официальное резюме экзамена и рекомендуемые ресурсы AWS можно найти здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/
Хотя у меня не было:
«практический опыт разработки, проектирования и запуска рабочих нагрузок машинного обучения или глубокого обучения в облаке AWS»
У меня был некоторый опыт работы с машинным обучением в Microsoft Azure, и я недавно прошел курс AWS Certified Cloud Practitioner (частично с помощью Microsoft Learn Сравнение сервисов AWS и Azure)
Я также познакомился с концепциями машинного обучения благодаря нескольким замечательным курсам Эндрю Нг на Coursera: https://www.coursera.org/collections/machine-learning, которые предоставили отличная отправная точка для основ.
Самый полезный курс — Машинное обучение с учителем: регрессия и классификация.
Я также имел некоторое представление об основных концепциях обработки данных.
Я понял, что из-за незначительного опыта работы с AWS это будет сложно, но я чувствовал, что справлюсь с задачей, имея общее представление об машинном обучении и несколько лет опыта работы с облаком в целом.
Имея это в виду, вот краткое изложение того, что я нашел наиболее полезным при сдаче этого экзамена с моим опытом.
Учебные материалы AWS
План машинного обучения AWS Skill Builder оказался полезным, несмотря на то, что большинству материалов в то время было уже несколько лет.
В частности, чрезвычайно полезным оказалось Изучение набора инструментов для машинного обучения, которое помогло мне лучше понять, насколько богаты предложения AWS и сколько проблем машинного обучения не нужно решать, создавая новую модель из царапать. Хотя это и не составляет большую часть экзамена, я считаю, что инструменты, представленные в этой серии, бесценны как для практиков, так и для разработчиков программного обеспечения.
Было бы упущением с моей стороны не упомянуть, что не все услуги были описаны выше. Было бы трудно не заметить появление DataBricks в последние несколько лет как естественное развитие Apache Spark , о котором необходимо знать большинству специалистов по машинному обучению и науке о данных.
Точно так же в зависимости от домена, бесценного хранилища неструктурированных данных и типов сервисов, которые могут индексировать эти источники, например AWS Kendra.
План машинного обучения: Элементы науки о данных был особенно актуален для экзамена. Он помог освежить в памяти некоторые основы машинного обучения, но, кроме того, помог по-новому взглянуть на то, чему я научился на соответствующих курсах Coursera . Простого переформулирования темы может быть достаточно, чтобы внести новые фундаментальные идеи, которые могут сделать материал незабываемым.
План машинного обучения: Разработка приложений машинного обучения также был особенно полезен. Хотя это всего лишь введение в некоторые функции OOTB (из коробки) SageMaker, оно помогло подчеркнуть, насколько богата среда SageMaker, и привело к следующему пункту.
SageMaker
Имея небольшой опыт работы с платформой, знакомство с ее функциями было необходимо для сдачи экзамена (документация SageMaker https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html)
- Label Data: и GroundTruth особенно полезны для понимания того, какие существуют варианты, в отличие от попыток вручную организовать весь процесс с помощью некоторых другие средства.
- Автопилот: отличная отправная точка для определения возможности решения. Стоит ознакомиться.
- Встроенные алгоритмы: С точки зрения создания модели с нуля, с ограниченным использованием некоторых инструментов, специфичных для платформы, это действительно помогло мне понять, что было там. Я предлагаю ознакомиться со всеми алгоритмами, какие типы данных они принимают и когда выбирать один против другого.
- Экземпляры ноутбуков: оптимизация и защита их и связанных с ними источников данных. Имея опыт разработки программного обеспечения, я лишь постепенно осознаю, что должен отказаться от контроля над своей средой разработки на локальной машине. Понимание преимуществ политики безопасности AWS и SageMaker по умолчанию и IAM имеет неоценимое значение.
- Развертывание моделей для логического вывода: Если модель не развернута и не работает, ее ценность для бизнеса незначительна. Пакетная обработка, непрерывная обработка, синее/зеленое развертывание, канареечное смещение трафика и другие методы поэтапного развертывания бесценны в ответственном, повторяемом процессе развертывания. Также оказалось полезным знакомство с Elastic Inference.
- Безопасность и управление: часто идут рука об руку, и ни к одному из них не следует относиться как к людям второго сорта при разработке эффективного рабочего пространства.
- Мониторинг: по мере запуска моделей важно отслеживать их производительность, к счастью, SageMaker имеет тесную интеграцию с CloudWatch и CloudTrailобеспечение согласованности на платформе
Основы машинного обучения
Выполнение вышеперечисленных пунктов будет недостаточным для успешной сдачи экзамена. В начале этой статьи предполагается, что вам уже нужно быть знакомым со многими основами машинного обучения, а именно:
- Логистическая регрессия и линейная регрессия
- Специализированные сети, такие как RNN и CNN.
- NN и глубокое обучение
- Трансферное обучение
- Оценка моделей, особенно моделей классификации, может привести к путанице.
- Настройка гиперпараметров, регуляризация, скорость обучения и т. д.
- Компромисс смещения/дисперсии и как его решить
Инжиниринг данных
Также необходимо было знать, как эффективно обслуживать данные для моделей машинного обучения как в облаке, так и на периферии, а именно:
- Знание основ ETL.
- Как использовать AWS Glue
- Map Reduce и AWS EMR
- Когда следует рассматривать ML на периферии и что предлагает AWS IoT Greengrass
- Потоковое против пакетного
- Как передавать данные экономически эффективным способом, например. чем отличаются предложения Kinesis?
- Как преобразовать сервер данных и бессерверный
- Как получать данные в различных форматах, т. е. структурированные и неструктурированные хранилища данных в AWS, и как их следует защищать
- Предложения по хранению: S3, EBS, EFS, RDS, DynamoDB и т.д.
Я бы посоветовал посетить соответствующие страницы продукта и погрузиться в документацию для разработчиков.
Тестовые экзамены
Я сдал 2 тестовых экзамена, оба предоставлены AWS:
- Сертифицированное машинное обучение AWS — образцы специальных вопросов доступны здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/
- Готовность к экзамену: Сертифицированное машинное обучение AWS — специальность плана машинного обучения AWS Skill Builder.
Я просмотрел некоторые другие варианты в Интернете, стремясь получить как можно больше практики, но вопросы оказались умозрительными и не так хорошо сформулированными, как контент, созданный AWS.
Краткое содержание
Даже при знакомстве с платформой AWS большинство практиков вряд ли осознают, насколько обширны предложения AWS.
Приступая к экзамену только с общими знаниями в области разработки машинного обучения, я бы не был готов к некоторым нюансам в области проектирования и развертывания данных или к тому, какие решения Auto ML более удобны для разработчиков. Точно так же незнание некоторых встроенных алгоритмов SageMaker было бы существенным недостатком.
Подготовка к экзамену AWS Machine Learning Specialty расширила мой набор навыков и позволила мне лучше понять, насколько даже за последние несколько лет усовершенствовались некоторые инструменты машинного обучения, особенно Auto ML.