Сдача специальности машинного обучения AWS

Я сдал экзамен по специальности машинного обучения AWS в декабре 2022 года, и вот как я это сделал.

Официальное резюме экзамена и рекомендуемые ресурсы AWS можно найти здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/

Хотя у меня не было:

«практический опыт разработки, проектирования и запуска рабочих нагрузок машинного обучения или глубокого обучения в облаке AWS»

У меня был некоторый опыт работы с машинным обучением в Microsoft Azure, и я недавно прошел курс AWS Certified Cloud Practitioner (частично с помощью Microsoft Learn Сравнение сервисов AWS и Azure)

Я также познакомился с концепциями машинного обучения благодаря нескольким замечательным курсам Эндрю Нг на Coursera: https://www.coursera.org/collections/machine-learning, которые предоставили отличная отправная точка для основ.

Самый полезный курс — Машинное обучение с учителем: регрессия и классификация.

Я также имел некоторое представление об основных концепциях обработки данных.

Я понял, что из-за незначительного опыта работы с AWS это будет сложно, но я чувствовал, что справлюсь с задачей, имея общее представление об машинном обучении и несколько лет опыта работы с облаком в целом.

Имея это в виду, вот краткое изложение того, что я нашел наиболее полезным при сдаче этого экзамена с моим опытом.

Учебные материалы AWS

План машинного обучения AWS Skill Builder оказался полезным, несмотря на то, что большинству материалов в то время было уже несколько лет.

В частности, чрезвычайно полезным оказалось Изучение набора инструментов для машинного обучения, которое помогло мне лучше понять, насколько богаты предложения AWS и сколько проблем машинного обучения не нужно решать, создавая новую модель из царапать. Хотя это и не составляет большую часть экзамена, я считаю, что инструменты, представленные в этой серии, бесценны как для практиков, так и для разработчиков программного обеспечения.

Было бы упущением с моей стороны не упомянуть, что не все услуги были описаны выше. Было бы трудно не заметить появление DataBricks в последние несколько лет как естественное развитие Apache Spark , о котором необходимо знать большинству специалистов по машинному обучению и науке о данных.

Точно так же в зависимости от домена, бесценного хранилища неструктурированных данных и типов сервисов, которые могут индексировать эти источники, например AWS Kendra.

План машинного обучения: Элементы науки о данных был особенно актуален для экзамена. Он помог освежить в памяти некоторые основы машинного обучения, но, кроме того, помог по-новому взглянуть на то, чему я научился на соответствующих курсах Coursera . Простого переформулирования темы может быть достаточно, чтобы внести новые фундаментальные идеи, которые могут сделать материал незабываемым.

План машинного обучения: Разработка приложений машинного обучения также был особенно полезен. Хотя это всего лишь введение в некоторые функции OOTB (из коробки) SageMaker, оно помогло подчеркнуть, насколько богата среда SageMaker, и привело к следующему пункту.

SageMaker

Имея небольшой опыт работы с платформой, знакомство с ее функциями было необходимо для сдачи экзамена (документация SageMaker https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html)

Label Data: и GroundTruth особенно полезны для понимания того, какие существуют варианты, в отличие от попыток вручную организовать весь процесс с помощью некоторых другие средства.
Автопилот: отличная отправная точка для определения возможности решения. Стоит ознакомиться.
Встроенные алгоритмы: С точки зрения создания модели с нуля, с ограниченным использованием некоторых инструментов, специфичных для платформы, это действительно помогло мне понять, что было там. Я предлагаю ознакомиться со всеми алгоритмами, какие типы данных они принимают и когда выбирать один против другого.
Экземпляры ноутбуков: оптимизация и защита их и связанных с ними источников данных. Имея опыт разработки программного обеспечения, я лишь постепенно осознаю, что должен отказаться от контроля над своей средой разработки на локальной машине. Понимание преимуществ политики безопасности AWS и SageMaker по умолчанию и IAM имеет неоценимое значение.
Развертывание моделей для логического вывода: Если модель не развернута и не работает, ее ценность для бизнеса незначительна. Пакетная обработка, непрерывная обработка, синее/зеленое развертывание, канареечное смещение трафика и другие методы поэтапного развертывания бесценны в ответственном, повторяемом процессе развертывания. Также оказалось полезным знакомство с Elastic Inference.
Безопасность и управление: часто идут рука об руку, и ни к одному из них не следует относиться как к людям второго сорта при разработке эффективного рабочего пространства.
Мониторинг: по мере запуска моделей важно отслеживать их производительность, к счастью, SageMaker имеет тесную интеграцию с CloudWatch и CloudTrailобеспечение согласованности на платформе

Основы машинного обучения

Выполнение вышеперечисленных пунктов будет недостаточным для успешной сдачи экзамена. В начале этой статьи предполагается, что вам уже нужно быть знакомым со многими основами машинного обучения, а именно:

Логистическая регрессия и линейная регрессия
Специализированные сети, такие как RNN и CNN.
NN и глубокое обучение
Трансферное обучение
Оценка моделей, особенно моделей классификации, может привести к путанице.
Настройка гиперпараметров, регуляризация, скорость обучения и т. д.
Компромисс смещения/дисперсии и как его решить

Инжиниринг данных

Также необходимо было знать, как эффективно обслуживать данные для моделей машинного обучения как в облаке, так и на периферии, а именно:

Знание основ ETL.
Как использовать AWS Glue
Map Reduce и AWS EMR
Когда следует рассматривать ML на периферии и что предлагает AWS IoT Greengrass
Потоковое против пакетного
Как передавать данные экономически эффективным способом, например. чем отличаются предложения Kinesis?
Как преобразовать сервер данных и бессерверный
Как получать данные в различных форматах, т. е. структурированные и неструктурированные хранилища данных в AWS, и как их следует защищать
Предложения по хранению: S3, EBS, EFS, RDS, DynamoDB и т.д.

Я бы посоветовал посетить соответствующие страницы продукта и погрузиться в документацию для разработчиков.

Тестовые экзамены

Я сдал 2 тестовых экзамена, оба предоставлены AWS:

Сертифицированное машинное обучение AWS — образцы специальных вопросов доступны здесь: https://aws.amazon.com/certification/certified-machine-learning-specialty/
Готовность к экзамену: Сертифицированное машинное обучение AWS — специальность плана машинного обучения AWS Skill Builder.

Я просмотрел некоторые другие варианты в Интернете, стремясь получить как можно больше практики, но вопросы оказались умозрительными и не так хорошо сформулированными, как контент, созданный AWS.

Краткое содержание

Даже при знакомстве с платформой AWS большинство практиков вряд ли осознают, насколько обширны предложения AWS.

Приступая к экзамену только с общими знаниями в области разработки машинного обучения, я бы не был готов к некоторым нюансам в области проектирования и развертывания данных или к тому, какие решения Auto ML более удобны для разработчиков. Точно так же незнание некоторых встроенных алгоритмов SageMaker было бы существенным недостатком.

Подготовка к экзамену AWS Machine Learning Specialty расширила мой набор навыков и позволила мне лучше понять, насколько даже за последние несколько лет усовершенствовались некоторые инструменты машинного обучения, особенно Auto ML.

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning