Несколько шагов для построения модели машинного обучения с использованием Dataiku
Вы хотите создавать модели машинного обучения, но не уверены в программировании? Не беспокойтесь, платформа Dataiku создана для того, чтобы упростить ваше путешествие.
Dataiku – это простая в использовании платформа без написания кода для обработки данных и аналитики. Это позволяет организациям или отдельным лицам ускорить свои конвейеры машинного обучения. Он предоставляет визуальный интерфейс, упрощающий различные аспекты жизненного цикла данных, от подготовки и исследования данных до разработки и развертывания моделей.
Не поймите меня неправильно, хотя каждый может использовать платформу и начать создавать свои модели с нулевым кодом, понимание некоторых концепций науки о данных является ключом к тому, чтобы начать быстрее строить с Dataiku.
1 — Как начать
Как и для большинства платформ, вам необходимо создать учетную запись на сайте Daitaku. После успешного подключения вы получаете доступ к пробной версии плана Discover. После завершения план будет понижен до Бесплатной версии. Ниже приведены различные доступные планы.
Для целей этой статьи я использовал пробную версию Discover.
2— О данных
В следующих разделах я опишу различные шаги для применения двух моделей машинного обучения. Чтобы проиллюстрировать этот процесс, я буду использовать данные IoT, собранные во время перевозки скота и других товаров.
Целевой характеристикой является либо значение влажности, либо температура внутри автомобиля.
Что касается процесса прогнозирования, то включены следующие шаги:
- Предварительная обработка данных
- Разделить предварительно обработанный набор данных
- Примените две модели машинного обучения, по одной для каждой цели (влажность и температура).
3 — Создать проект
Ваша целевая страница показана на изображении ниже.
Чтобы иметь доступ к проектам, рабочим областям, приложениям и т. д. Нажмите Открыть экземпляр, и откроется Dataiku DSS.
Проекты можно создавать, просто нажав НОВЫЙ ПРОЕКТ.
4— Загрузить данные
В левом верхнем углу страницы вашего проекта есть параметр Наборы данных. Чтобы добавить один или несколько наборов данных, нажмите НОВЫЙ НАБОР ДАННЫХ.
Перейдя в Flow, вы должны увидеть свои наборы данных. Чтобы применить этапы предварительной обработки, нажмите Подготовитьв разделе Визуальные рецепты.
Дважды щелкните значок Подготовить. Ваш набор данных будет отображаться справа, а возможность добавить шаг (ДОБАВИТЬ НОВЫЙ ШАГ) слева. Чтобы избежать высоких вычислительных затрат, требуется часть вашего набора данных. Это можно настроить в разделе Настройки образца в левом верхнем углу.
5 — Преобразование строки в формат DateTime
Проанализируйте отметку времени в правильном формате. Для этого нажмите ДОБАВИТЬ НОВЫЙ ШАГ и выберите Проанализировать до стандартной даты. формат.
Создайте новые столбцы для даты, дня недели и часа с элементами Извлечь дату.
6 — Добавить операторы if/else
Чтобы добавить операторы if/else, выберите Создать операторы if, then else в разделе ДОБАВИТЬ НОВЫЙ ШАГ.
Существуют и другие способы реализации операторов if/else, например использование определенной формулы. Этого можно добиться, щелкнув имя функции и выбрав параметр Обработать с помощью формулы. У Dataiku есть собственная библиотека для написания формул. Подробнее об этом можно узнать здесь.
7— Удалить/сохранить и переместить функции
Удалить столбцы с обработчиком Удалить/Сохранить столбцы по имени.
Чтобы переупорядочить набор данных, используйте Переместить столбцы.
8 — Удалить нулевые значения
Чтобы удалить нулевые значения, используйте Удалить/сохранить строки, в которых ячейка пуста. Доступно несколько вариантов, вы можете удалить все столбцы, один столбец, несколько или использовать шаблон.
9 — Разделить предварительно обработанный набор данных
Когда ваш набор данных будет готов, вернитесь в Flow.
В данном конкретном случае моей целью было разделить подготовленный набор данных на два отдельных и применить к каждому из них регрессионную модель, как упоминалось ранее.
Функция измерения состоит из двух значений: температуры и влажности. Кроме того, целевое значение различается для каждого из этих измерений. Следовательно, чтобы разделить предварительно обработанный набор данных, я использовал Разделитьв разделе Визуальные рецепты.
Нажав на параметры Разделить, вы увидите несколько шагов для соответствующего выполнения разделения.
10 — Применить модель
Убедитесь, что ваш набор данных готов к моделированию, открыв его и подтвердив изменения. Наконец, чуть ниже Сборка нажмите Лаборатория, чтобы выбрать одну из нескольких моделей машинного обучения.
Я выбрал Прогноз AutoML. Следовательно,вы можете выбрать целевую функцию и сложность модели. В моем случае я выбрал Модели высокой производительности.
Перед обучением модели нажмите Design. Слева вы увидите несколько вариантов настройки обучения, например:
- Цель: изменить целевое значение.
- Обучение/тестовый набор: выберите, хотите ли вы тренироваться на всех данных, и определите коэффициент обучения.
- Показатели.оптимизируйте свою модель по определенным показателям (R2, RMSE и т. д.).
- Алгоритмы: выбирайте между различными алгоритмами, вы можете запускать несколько одновременно.
- Гиперметры: точная настройка путем изменения гиперпараметров.
Примените изменения, сохраните и нажмите Обучить в правом верхнем углу.
Во время обучения моделей у вас есть возможность наблюдать ценную информацию, включая шаги, время и производительность каждой модели.
Когда все будет готово, вы можете щелкнуть нужную модель и развернуть. Наконец, вы можетеувидеть модель в своем потоке.
Что касается экспорта моделей, есть несколько вариантов, которые стоит проверить в документации Dataiku.
📌По моему опыту, платформа Dataiku невероятно удобна для пользователя. Если у вас есть опыт работы в области науки о данных или аналитики, вы можете быстро освоить его функции в течение нескольких часов. Даже если вам не хватает некоторых из этих навыков, потратив немного дополнительного времени, вы все равно сможете эффективно понимать платформу и ориентироваться в ней. Это определенно стоит попробовать.