Машинное обучение — искусство или наука?
Всплеск больших данных и проблема предвзятости подтверждения заставляют специалистов по данным искать методологический подход для раскрытия скрытых идей. В прогнозной аналитике они часто обращаются к машинному обучению, чтобы спасти ситуацию. Машинное обучение кажется идеальным кандидатом для обработки больших данных с использованием обучающих наборов. Он также обладает сильным научным чутьем, делая прогнозы на основе данных. Но действительно ли машинное обучение свободно от предвзятости? И как мы можем использовать этот инструмент более осознанно?
Почему машинное обучение — это наука:
Мы часто слышим, что алгоритмы машинного обучения обучаются и делают прогнозы на основе данных. Таким образом, они предположительно менее подвержены человеческим ошибкам и предубеждениям. Мы, люди, склонны искать подтверждение тому, что мы уже думаем или во что верим, что приводит к предвзятости подтверждения, которая заставляет нас игнорировать факты, противоречащие нашей теории, и придавать слишком большое значение тем, которые ее подтверждают.
В машинном обучении нас учат данные, а что может быть чище этого? При использовании алгоритма или экспертной системы, основанного на правилах, мы рассчитываем на то, что эксперт составит «правильные» правила. Мы не можем избежать проникновения его/ее суждений и позиций в такие правила. Изучение интуиции пошло бы еще дальше, говоря, что мы хотим, чтобы опыт и мнения эксперта влияли на эти правила — именно они делают его/ее экспертом!
В любом случае, прорабатывая данные снизу вверх с помощью алгоритмов машинного обучения, мы, кажется, обошли это предубеждение.
Почему машинное обучение — это искусство:
Факты — это не наука, как и данные. Мы изобретаем научные теории, чтобы дать контекст данных и объяснение. Помогает нам отличить причинно-следственную связь от корреляции. Яблоко, упавшее на голову Ньютона, — это факт; гравитация — это теория, которая это объясняет. Но как мы придумываем теорию? Есть ли научный способ предсказать моменты озарения?
Мы проверяем предположения, используя научные инструменты, но мы не генерируем предположения таким образом, по крайней мере, не инновационные, которые демонстрируют нестандартное мышление. С другой стороны, искусство берет на себя творческие способности, чтобы выражать и создавать что-то новое. В поведенческой аналитике это может принимать форму рационального или иррационального человеческого поведения. Пользователь, нажимающий на контент, является фактом; теория, объясняющая причинно-следственную связь, может заключаться в том, что она отвечает на вопрос, который он / она искал, или относится к интересующей его / ее области на основе предыдущих действий.
Неопределенность, присущая человеческому поведению и даже в большей степени нашей причинно-следственной связи или мотивации, отводит искусству почетное место в прогностической аналитике. Машинное обучение — это искусство индукции. Даже в неконтролируемом обучении используются объективные инструменты, которые были выбраны, настроены и проверены человеком на основе его знаний и творчества.
Шредингер:
Другой способ — думать о машинном обучении как об искусстве и науке. Подобно коту Шрёдингера, который одновременно жив и мертв, буддистскому срединному пути или квантовой физике, утверждающей, что свет — это и волна, и частица. По крайней мере, до тех пор, пока мы не измерим его… понимаете, если мы используем научные инструменты для измерения прогнозируемости модели, основанной на машинном обучении, мы подписываемся на научный подход, что дает нашим выводам своего рода профессиональную проверку. Тем не менее, если мы сосредоточимся на измерении лежащих в основе предположений или методе представления или оценки, мы поймем, что модель настолько «чиста», насколько «чисты» ее создатели.
В поведенческой аналитике многое зависит от интерпретации человеческого поведения в поддающихся количественной оценке событиях. Это произведение относится к области искусства. Объединяя поведенческую аналитику с научными фактами, как это часто происходит при использовании медицинских исследований или исследований в области здравоохранения, мы действительно создаем художественную науку или научное искусство. Мы больше никогда не сможем отделить научную природу от поведенческого воспитания.
Практическая реализация
Хотя это может быть интересное философское или академическое обсуждение, цель здесь — помочь практическими инструментами и советами. Итак, что это означает для людей, разрабатывающих модели на основе машинного обучения или полагающихся на них для поведенческой аналитики (на основе моего собственного опыта и идей авторов этого поста — ниже)?
1. Инвестируйте в методологию
Данных недостаточно. Теория, рассказывающая данные, придает им контекст. Выбор, который вы делаете на трех этапах: репрезентация, оценка и оптимизация, подвержен плохому искусству. Поэтому, когда вам нужна модель машинного обучения, проконсультируйтесь с различными экспертами о выборе лучшей методологии для вашей ситуации, прежде чем приступать к разработке чего-либо.
2. Мусор в мусоре
Машинное обучение — это не алхимия. Модель не может превратить уголь в алмаз. Подготовка данных часто является скорее искусством (или «черным искусством»), чем наукой. И это занимает большую часть времени… Критически следите за тем, что входит в модель, на которую вы полагаетесь, и будьте максимально прозрачными в этом, если вы занимаетесь проектированием. Помните, что более релевантные данные всегда лучше, чем более умный алгоритм.
3. Подготовка данных зависит от предметной области
Невозможно полностью автоматизировать подготовку данных (т. е. проектирование признаков). Некоторые функции могут добавлять ценность только в сочетании с другими, создавая новые события. Часто эти события должны иметь смысл для продукта или бизнеса точно так же, как они должны иметь смысл для алгоритмов. Помните, что для проектирования признаков или извлечения событий требуются совсем другие навыки, чем для моделирования.
4. Ключ — итерации по всей цепочке
Вы собираете необработанные данные, подготавливаете их, затем изучаете и оптимизируете, тестируете и проверяете и, наконец, используете в контексте продукта или бизнеса. Но этот цикл — только первая итерация. Хорошо обеспеченный алгоритм часто заставляет вас повторно собирать немного другие необработанные данные, изгибать их под другим углом, моделировать, настраивать и проверять их по-другому и даже использовать их по-другому. Ваша способность развивать сотрудничество в этой цепочке, особенно там, где участвуют марсианские моделисты и венерианские маркетологи, имеет ключевое значение!
5. Тщательно делайте свои предположения
Архимед сказал: «Дайте мне достаточно длинный рычаг и точку опоры, на которую я его поставлю, и я переверну мир». Машинное обучение — это рычаг, а не магия. Он основан на индукции. Знания и творческие предположения, которые вы делаете, приступая к процессу, определяют ваше положение. Наука индукции позаботится обо всем остальном, если вы выбрали правильный рычаг (то есть методологию). Но именно ваше художественное суждение определяет правила взаимодействия.
6. Если можете, получите экспериментальные данные
Машинное обучение может помочь прогнозировать результаты на основе набора обучающих данных. Сплит-тестирование (также известное как A/B-тестирование) используется для измерения причинно-следственных связей, а когортный анализ помогает разделить и адаптировать решения для каждого сегмента. Объединение экспериментальных данных сплит-тестирования и когортного анализа с машинным обучением может оказаться более эффективным, чем придерживаться одного или другого. Способ, который вы выбрали для интеграции этих двух научных подходов, очень креативен.
7. Предупреждение о загрязнении!
Не позволяйте творческому процессу настройки алгоритма испортить ваше научное тестирование его предсказуемости. Не забудьте сохранить полное разделение обучающих и тестовых наборов. Если возможно, не предоставляйте набор тестов разработчикам до тех пор, пока алгоритм не будет полностью оптимизирован.
8. Король умер, да здравствует король!
Модель (и лежащая в ее основе теория) действительна только до тех пор, пока не появится лучшая. Если вы не хотите быть мертвым королем, рекомендуется начать разработку следующего поколения модели в момент выхода предыдущего. Не тратьте свою энергию на защиту своей модели; потратьте его, пытаясь заменить его. Чем дольше вы терпите неудачу, тем сильнее она становится…
Резюме
Алгоритмы машинного обучения часто используются для принятия решений на основе данных. Но алгоритмы машинного обучения — это еще не вся наука, особенно применительно к поведенческой аналитике. Понимание «художественной» стороны этих алгоритмов и ее связи с научной может помочь улучшить алгоритмы машинного обучения и более продуктивно их использовать.
______
Мне приятно читать ваши отзывы. Пожалуйста, оставьте свои комментарии ниже.
Я хотел бы поблагодарить Mohamad Hindawi, Fabio Morita и Ariel Shamir за то, что они поделились своим мнением, а также Ariel Shamir за то, что он порекомендовал мне интересную статью по этой теме Педро Домингоса.
Авторы:
Мохамад Хиндави, доктор философии FCAS, вице-президент по науке о данных Allstate Insurance, США
Фабио Охара Морита, технический директор (главный актуарий) Porto Seguro Insurance, Бразилия
Ариэль Шамир, заместитель декана, профессор Школы компьютерных наук Эфи Арази, IDC, Израиль
Домингос, Педро. «Несколько полезных вещей, которые нужно знать о машинном обучении». Сообщения ACM 55.10 (2012): 78–87.
Первоначально опубликовано на orensteinberg.com 2 декабря 2016 г.