Несколько шагов для построения модели машинного обучения с использованием Dataiku

Вы хотите создавать модели машинного обучения, но не уверены в программировании? Не беспокойтесь, платформа Dataiku создана для того, чтобы упростить ваше путешествие.

Dataiku – это простая в использовании платформа без написания кода для обработки данных и аналитики. Это позволяет организациям или отдельным лицам ускорить свои конвейеры машинного обучения. Он предоставляет визуальный интерфейс, упрощающий различные аспекты жизненного цикла данных, от подготовки и исследования данных до разработки и развертывания моделей.

Не поймите меня неправильно, хотя каждый может использовать платформу и начать создавать свои модели с нулевым кодом, понимание некоторых концепций науки о данных является ключом к тому, чтобы начать быстрее строить с Dataiku.

1 — Как начать

Как и для большинства платформ, вам необходимо создать учетную запись на сайте Daitaku. После успешного подключения вы получаете доступ к пробной версии плана Discover. После завершения план будет понижен до Бесплатной версии. Ниже приведены различные доступные планы.

Для целей этой статьи я использовал пробную версию Discover.

2— О данных

В следующих разделах я опишу различные шаги для применения двух моделей машинного обучения. Чтобы проиллюстрировать этот процесс, я буду использовать данные IoT, собранные во время перевозки скота и других товаров.

Целевой характеристикой является либо значение влажности, либо температура внутри автомобиля.

Что касается процесса прогнозирования, то включены следующие шаги:

  • Предварительная обработка данных
  • Разделить предварительно обработанный набор данных
  • Примените две модели машинного обучения, по одной для каждой цели (влажность и температура).

3 — Создать проект

Ваша целевая страница показана на изображении ниже.

Чтобы иметь доступ к проектам, рабочим областям, приложениям и т. д. Нажмите Открыть экземпляр, и откроется Dataiku DSS.

Проекты можно создавать, просто нажав НОВЫЙ ПРОЕКТ.

4— Загрузить данные

В левом верхнем углу страницы вашего проекта есть параметр Наборы данных. Чтобы добавить один или несколько наборов данных, нажмите НОВЫЙ НАБОР ДАННЫХ.

Перейдя в Flow, вы должны увидеть свои наборы данных. Чтобы применить этапы предварительной обработки, нажмите Подготовитьв разделе Визуальные рецепты.

Дважды щелкните значок Подготовить. Ваш набор данных будет отображаться справа, а возможность добавить шаг (ДОБАВИТЬ НОВЫЙ ШАГ) слева. Чтобы избежать высоких вычислительных затрат, требуется часть вашего набора данных. Это можно настроить в разделе Настройки образца в левом верхнем углу.

5 — Преобразование строки в формат DateTime

Проанализируйте отметку времени в правильном формате. Для этого нажмите ДОБАВИТЬ НОВЫЙ ШАГ и выберите Проанализировать до стандартной даты. формат.

Создайте новые столбцы для даты, дня недели и часа с элементами Извлечь дату.

6 — Добавить операторы if/else

Чтобы добавить операторы if/else, выберите Создать операторы if, then else в разделе ДОБАВИТЬ НОВЫЙ ШАГ.

Существуют и другие способы реализации операторов if/else, например использование определенной формулы. Этого можно добиться, щелкнув имя функции и выбрав параметр Обработать с помощью формулы. У Dataiku есть собственная библиотека для написания формул. Подробнее об этом можно узнать здесь.

7— Удалить/сохранить и переместить функции

Удалить столбцы с обработчиком Удалить/Сохранить столбцы по имени.

Чтобы переупорядочить набор данных, используйте Переместить столбцы.

8 — Удалить нулевые значения

Чтобы удалить нулевые значения, используйте Удалить/сохранить строки, в которых ячейка пуста. Доступно несколько вариантов, вы можете удалить все столбцы, один столбец, несколько или использовать шаблон.

9 — Разделить предварительно обработанный набор данных

Когда ваш набор данных будет готов, вернитесь в Flow.

В данном конкретном случае моей целью было разделить подготовленный набор данных на два отдельных и применить к каждому из них регрессионную модель, как упоминалось ранее.

Функция измерения состоит из двух значений: температуры и влажности. Кроме того, целевое значение различается для каждого из этих измерений. Следовательно, чтобы разделить предварительно обработанный набор данных, я использовал Разделитьв разделе Визуальные рецепты.

Нажав на параметры Разделить, вы увидите несколько шагов для соответствующего выполнения разделения.

10 — Применить модель

Убедитесь, что ваш набор данных готов к моделированию, открыв его и подтвердив изменения. Наконец, чуть ниже Сборка нажмите Лаборатория, чтобы выбрать одну из нескольких моделей машинного обучения.

Я выбрал Прогноз AutoML. Следовательно,вы можете выбрать целевую функцию и сложность модели. В моем случае я выбрал Модели высокой производительности.

Перед обучением модели нажмите Design. Слева вы увидите несколько вариантов настройки обучения, например:

  • Цель: изменить целевое значение.
  • Обучение/тестовый набор: выберите, хотите ли вы тренироваться на всех данных, и определите коэффициент обучения.
  • Показатели.оптимизируйте свою модель по определенным показателям (R2, RMSE и т. д.).
  • Алгоритмы: выбирайте между различными алгоритмами, вы можете запускать несколько одновременно.
  • Гиперметры: точная настройка путем изменения гиперпараметров.

Примените изменения, сохраните и нажмите Обучить в правом верхнем углу.

Во время обучения моделей у вас есть возможность наблюдать ценную информацию, включая шаги, время и производительность каждой модели.

Когда все будет готово, вы можете щелкнуть нужную модель и развернуть. Наконец, вы можетеувидеть модель в своем потоке.

Что касается экспорта моделей, есть несколько вариантов, которые стоит проверить в документации Dataiku.

📌По моему опыту, платформа Dataiku невероятно удобна для пользователя. Если у вас есть опыт работы в области науки о данных или аналитики, вы можете быстро освоить его функции в течение нескольких часов. Даже если вам не хватает некоторых из этих навыков, потратив немного дополнительного времени, вы все равно сможете эффективно понимать платформу и ориентироваться в ней. Это определенно стоит попробовать.