К настоящему времени многие люди в сфере данных и аналитики слышали об автоматизированном машинном обучении (AutoML). Решения AutoML работают только с этой предпосылкой, автоматизируя конвейер машинного обучения (ML) и предоставляя готовую к производству модель в качестве выходного продукта. Звучит красиво, верно? Ну не так быстро. По мере того, как эти решения становятся все более доступными, а различные компании внедряют эти наборы инструментов в свои корпоративные рабочие процессы, некоторые общие темы возникли из облака пыли метафорического искусственного интеллекта (ИИ). Этот пост призван дать некоторую ясность относительно того, следует ли вам рассмотреть возможность их использования в текущем рабочем процессе аналитики.

Зачем нужен AutoML?

Если вы еще не в курсе, машинное обучение и наука о данных — это нынешние «золотые гуси» технологий, и мы все должны преклонить колени перед пресловутым алтарем ИИ. По крайней мере, так кажется при чтении вашей типичной статьи на Medium в наши дни.

Все больше и больше компаний собирают каждый клочок данных, до которого могут дотянуться, и не просто хранят его, но активно пытаются реализовать потенциал этой ценной информации. Проблема заключается в том, чтобы найти правильный талант, чтобы превратить эти скрытые идеи в ценность. Обычно для этого требуется нанять команду опытных специалистов по данным или способных аналитиков с соответствующим опытом в предметной области, и, как и в большинстве случаев, это требует времени и усилий. У кого вообще хватит на это терпения?

Введите автомл. Широкий набор инструментов, который помогает восполнить отсутствие единой организационной стратегии в области науки о данных. Я не буду приводить обзор различных доступных программных продуктов (их десятки), а вместо этого предложу немного контекста относительно того, почему вам и вашей организации следует с осторожностью относиться к этим заманчивым, но потенциально вводящим в заблуждение решениям.

Какие преимущества?

Прежде всего, позвольте мне начать с того, что такие решения действительно могут быть мощным оружием в аналитическом арсенале организации. Если вы являетесь учреждением с надежной группой по науке о данных и хотите вооружить своих экспертов инструментами, экономящими время, для решения очень специфических проблем, тогда дерзайте! Некоторые продукты AutoML отлично подходят для быстрой проверки концепции без необходимости каждый раз писать сложный пользовательский код. Это простой способ проверить идею моделирования, прежде чем тратить время и драгоценные ресурсы на идею, которая может не сработать. На самом деле, я иногда буду использовать такие инструменты в своих рабочих процессах прототипирования.

Эти инструменты могут помочь организации создать гибридную аналитическую среду, которую могут использовать как аналитики, так и специалисты по обработке и анализу данных, если они внедряются технологами, хорошо понимающими процесс аналитической разработки. Некоторые из ощутимых преимуществ инструментов AutoML могут включать:

Совместная работа. Бизнес-аналитики и специалисты по данным могут совместно работать над одним и тем же решением, не прибегая к сложному программному обучению. Можно выполнить больше работы, получить ответы на большее количество вопросов и извлечь больше пользы из аналитического пайплайна.

Прозрачность: в большинстве этих наборов инструментов используется подход «без кода», и любой человек, не имеющий опыта программирования, может понять построенный конвейер моделирования (при условии, что у него есть базовые знания). понимание прогнозного моделирования).

Гибкость. Аналитики, не являющиеся специалистами по обработке и анализу данных, могут изучить, выдерживают ли определенные их аналитические идеи критику, прежде чем тратить время на создание сложных архитектур. Быстрая неудача — это название игры.

Независимо от того, что думают об этих «преимуществах» люди, более технически подкованные в программировании, нужно смотреть на это с точки зрения бизнеса, чтобы по-настоящему понять, почему эти платформы без кода являются особенно привлекательным вариантом.

Почему вам по-прежнему нужен специалист по данным.

Дебаты вокруг AutoML должны вестись не вокруг замены специалистов по данным, а вместо этого, чтобы помочь им и освободить их от бремени повторяющихся задач, что, в свою очередь, позволит им сосредоточить свои усилия на задачах, которые, как правило, невозможно успешно автоматизировать.

Несправедливо сравнивать стандартного аналитика, работающего с решением машинного обучения без кода, с ученым, работающим с данными, который может создать собственное, оптимизированное и полномасштабное аналитическое решение для конкретного варианта использования. Хотя AutoML позволяет быстро создавать «точные» модели, охват является узким и не учитывает, что наиболее успешные решения сосредоточены на показателях производительности за пределами стандартных окон точности и точности.

Когда вы платите специалисту по данным, вы ожидаете, что человек будет думать о целом ряде вещей, помимо простого предоставления модели, которая хорошо работает на основе произвольного показателя производительности. Они должны продумать, какие метрики являются правильными, что они означают, оценить стоимость ошибки и выбрать, какой из них оптимизировать, основываясь на очень узком опыте в предметной области.

Как нам доказать то, что, как мы думаем, мы знаем? Уверены ли мы, что это решение будет приносить пользу дольше, чем пару месяцев? Будет ли наше решение учитывать дрейф моделирования?

На самом базовом уровне специалистам по данным платят за то, чтобы они привносили научный метод в бизнес. Навык, который невозможно воссоздать с помощью готового алгоритма.

Однако в эпоху, когда достижения в области технологий и искусственного интеллекта быстро опережают нашу способность правильно понимать все их последствия, AutoML, безусловно, никуда не денется. Он предлагает уникальный взгляд на то, как технологи и практики-аналитики могут использовать интеллектуальную автоматизацию для решения многих проблем, стоящих перед областью науки о данных в целом.