Эта статья является частью серии материалов Измерение данных: робототехника и автоматизация, разработанной The Economist Intelligence Unit (EIU) при поддержке Veritas. В этой серии мы исследуем, каким образом информация и данные лежат в основе этого технологического прогресса, а также проблемы управления, с которыми сталкиваются компании при внедрении этих технологий.
Искусственный интеллект (ИИ) совершил большой скачок за последние десять лет, продвинувшись от университетских лабораторий робототехники и страниц научной фантастики до такой степени, что такие технологии, управляемые данными, теперь являются посредниками в нашей повседневной жизни — будь то управление нашими транспортными системами или определение наших каналов Facebook.
Самые большие прорывы были сделаны в области машинного обучения. Вместо того, чтобы управлять компьютерами, давая им линейные инструкции, этот подход включает в себя предоставление им огромных объемов данных и предоставление им возможности научиться интерпретировать их самостоятельно, выявлять закономерности и устанавливать связи, подобно тому, как молодой разум впервые сталкивается с миром. В результате появилось программное обеспечение, которое может дать глубокое понимание данных, ранее непостижимых для машин, и слишком больших, чтобы люди когда-либо могли их обрабатывать самостоятельно. Системы машинного обучения учатся в дикой природе и постоянно совершенствуются. Как только бизнес-данные будут преобразованы в информацию, которую смогут понять и изучить системы машинного обучения, у этих новых умов появится неограниченный простор для изучения.
Некоторые из этих данных десятилетиями находились в руках предприятий, но компании не могли их использовать.
Машинное обучение имеет огромный потенциал в бизнесе. Банки, например, могут использовать эти подходы для лучшего понимания данных о транзакциях, которые помогают им управлять рисками и предотвращать мошенничество. Такие алгоритмы собирают полное представление об «базовом» поведении пользователей, как индивидуальном, так и о глобальных тенденциях, путем наблюдения за многими миллионами транзакций. Понимая, как выглядит «нормальный», ИИ легко обнаруживает аномалии. Это превращает множество данных, находящихся на кончиках пальцев банков, которые люди не могут интерпретировать самостоятельно, в бизнес-идею, которая защищает их клиентов и экономит их деньги.
Маркетологи могут использовать алгоритмы машинного обучения для инструментов «если вам это нравится, вам может понравиться это», которые дают рекомендации на основе истории покупок клиентов. Сервис потокового онлайн-вещания Netflix использует данные о том, что и когда смотрят отдельные клиенты, или в какой момент они отказываются от телесериала, в качестве полезной информации о том, что им показывать дальше, а также о том, какие программы он может заказать.
Некоторые из этих данных десятилетиями находились в руках предприятий, но компании не могли их использовать. Теперь многие смогут это сделать. Например, в транспорте возможность отслеживать миллионы поездок по транспортным системам — будь то системы метро, городские автобусы, автомобильные или велосипедные маршруты или, что еще лучше, их комбинации — позволяет планировщикам управлять нагрузкой на сеть, минимизировать перерывы в обслуживании. и строить свою сеть в соответствии со спросом. Обрабатывая миллиарды комбинаций поездок и интерпретируя шаблоны, городские транспортные сети теперь могут разумно реконфигурировать свою сеть гораздо более эффективно.
Позволяя предприятиям извлекать пользу из большей части собираемых ими данных, машинное обучение бросит вызов их способности обрабатывать данные и управлять ими, чтобы их можно было преобразовать в полезную информацию для систем машинного обучения. Качество продукции систем машинного обучения отражает качество поступающей в них информации.
Возьмем в качестве примера одну из новаторских историй успеха машинного обучения: Google Translate. Алгоритмы программного обеспечения для перевода работают не путем обучения компьютеров грамматике (именно так предпринимались попытки перевода ИИ на протяжении десятилетий, но без особого успеха), а путем обработки сотен тысяч параллельных текстов, переведенных человеком, и их сравнения. Однако существует не так уж много высококачественных больших массивов прямых параллельных переводов. На заре своего существования большая часть корпуса Google Translate состояла из документов — контрактов, договоров — из Организации Объединенных Наций, и в результате его переводы имели отчетливое ощущение юридического языка, чаще переводя французское «авокат» как юрист, чем авокадо. .
Плохие данные приведут только к чепухе или, что еще хуже, нанесут вред.
Урок состоит в том, что при машинном обучении структура, происхождение и качество ваших данных имеют большее значение, чем когда-либо. Плохие данные приведут только к чепухе или, что еще хуже, нанесут вред. Алгоритмы, которые анализируют онлайн-поведение или историю покупок, могут быть легко искажены, когда ваши дети берут вашу учетную запись Netflix или вы делаете рождественские покупки для друзей и семьи с разными вкусами на Amazon, что делает эти рекомендации бесполезными. Недавно попытка Microsoft привлечь миллениалов с помощью «чат-бота» Twitter с искусственным интеллектом закончилась пиар-катастрофой после того, как пользователи засыпали его оскорбительными замечаниями, а бот, в свою очередь, превратился в расистского сексистского монстра.
По оценкам, около половины крупных предприятий в настоящее время экспериментируют с такого рода управляемым данными ИИ. Интерес к машинному обучению растет не только из-за того, что возможности улучшились, но и потому, что эти достижения совпадают с более разумным миром данных, где предприятия всех видов генерируют и собирают больше данных. Но эффективное их использование зависит от надежного управления данными.
Возьмите здравоохранение. IBM Watson используется для сортировки и анализа огромных объемов медицинских данных, поиска новых корреляций и прогнозирования. Это может сделать Уотсона лучшим диагностом в мире. Но чтобы превзойти клиницистов-людей в диагностике, его алгоритмы машинного обучения должны учитывать разнородные наборы структурированных данных (возможно, с носимых устройств), неструктурированных данных (заметки врачей) и данных изображений (сканы). Пока что системы машинного обучения лучше всего работают с четко определенным набором данных и одной задачей, такой как анализ радиологических изображений, но они плохо обобщают новые контексты (так, как это легко делают люди). Это не просто задача моделирования — это также задача сделать данные чистыми, простыми и универсальными.
Чтобы эффективно использовать машинное обучение, организации должны убедиться, что у них есть информация, необходимая для выявления соответствующих и надежных шаблонов. У многих уже есть необработанные данные, но без возможности управлять качеством, структурой и своевременностью этих данных их системы машинного обучения в конечном итоге сделают неверные выводы. По мере того, как машинное обучение становится все более изощренным и распространенным, добавление «мусора» и «удаление мусора» становится все более опасным.