Статистика и машинное обучение преследуют схожие цели, связанные с обучением на основе данных. Оба они пытаются использовать данные для улучшения процедуры принятия решений. Иногда они даже используются взаимозаменяемо. Машинное обучение находит обобщаемые прогностические шаблоны, статистика, с другой стороны, делает вывод о населении из выборки. Граница между машинным обучением и статистикой является предметом споров. Некоторые методы попадают только в одну область, в то время как многие используются в обеих областях. Например, временные ряды используются только в статистике, а линейная регрессия используется в обоих случаях. В настоящее время эти области имеют много общих аспектов, хотя вначале они были совершенно разными. Статистика развивалась задолго до машинного обучения. Это уже была полностью развитая дисциплина до 1920 года, наиболее важный вклад в нее внес Р. Фишер, который ввел оценку максимального правдоподобия (MLE) в качестве стандартного инструмента для статистического вывода. Машинное обучение основано на статистике. Многое зависит от статистики. Машинное обучение включает в себя данные, а данные должны быть описаны с точки зрения статистики. Итак, очевидно, что машинное обучение использует много статистики. Машинное обучение основано на статистической теории обучения.

Классическая статистика и машинное обучение различаются вычислительной гибкостью по мере увеличения количества данных/переменных на предмет. Машинное обучение — это алгоритм, который может учиться на данных, не полагаясь на стандартные методы программирования, такие как объектно-ориентированное проектирование (ООП). Он был изобретен в 1959 году, а статистика — в 17 веке. Машинное обучение часто дает более подробную информацию и меньше предположений, чем статистика. Статистика — это формализация отношений между различными переменными в виде математических уравнений.

Машинное обучение предпочитает подход BlackBox, цель которого состоит в том, чтобы воспроизвести пары входных/выходных данных из прошлых наблюдений, в то время как статистический подход открывает BlackBox и моделирует взаимосвязь. Статистика связана с анализом конечной выборки, неправильной спецификацией модели и расчетным учетом, с другой стороны, машинное обучение наследует вероятностное моделирование. Между этими двумя подходами лежит теория данных и статистического обучения, которая является общей для обоих методов. Статистическое моделирование — это генеративный подход к статистической теории обучения, в то время как машинное обучение — дискриминационный подход.

Возможно, самая большая разница между этими двумя полями заключается в их склонности, т.е. они подчеркивают разные вещи. Хотя они используют схожие методы и инструменты, у них есть философские различия в том, как и когда следует использовать эти методы. Машинное обучение больше ориентировано на разработку программной системы, которая может делать прогнозы, т. е. больше внимания уделяется разработке программного обеспечения. Часто говорят, что машинное обучение разработано учеными-компьютерщиками, потому что им нужен был способ создать компьютерную систему, которая может учиться на данных и делать прогнозы. Статистика — это больше математическая дисциплина. Такие методы, как линейная регрессия, заимствованы машинным обучением из области статистического моделирования.

В своем блоге Ларри Вассерман объяснил именно эту тему (статистика против машинного обучения). Если вы его не знаете, он профессор кафедры статистики и факультета машинного обучения в Карнеги-Меллон, одном из ведущих университетов, в котором есть собственные кафедры машинного обучения. Он написал много блогов по машинному обучению и статистике. Я попытаюсь обобщить этот пост в блоге. Он упомянул, что статистика делает упор на формальный статистический вывод (оптимальные оценки, доверительные интервалы, проверки гипотез) в задачах с низкой размерностью, в то время как машинное обучение склонно к задачам прогнозирования с высокой размерностью. Но это всего лишь упрощение. Если нам нужно перечислить некоторые темы, которым уделяется больше внимания в одном поле, это:

Статистика: пространственный анализ, минимаксная теория, полупараметрический вывод, временные ряды, анализ выживания, множественное тестирование, деконволюция, начальная загрузка и т. д.

Машинное обучение: активное обучение, повышение квалификации, онлайн-обучение, частично контролируемое обучение, многообразное обучение и т. д.

Между этими двумя темами много пересекающихся тем. Например, феномен «Воспроизведение гильбертова пространства ядра» (RKHS) имеет тенденцию к машинному обучению, которое сначала началось в статистике. Точно так же концентрация меры, выпуклая оптимизация и разреженность очень активны в обеих дисциплинах. Онлайн-обучение также имеет свою базу в области статистики.

Некоторые соглашения об именах с одинаковым значением в обоих полях:

Эти слова можно использовать взаимозаменяемо. Например, если вы пройдете курсы Эндрю Нг, вы обнаружите, что он обычно использует термин параметр вместо веса, который является скорее статистическим термином, хотя он известен своим вкладом в машинное обучение.

Теперь давайте поговорим об инструментах, которые используют эти поля. Вы, скорее всего, увидите Python и Matlab в машинном обучении. Вы также можете увидеть другие языки, такие как Java, C++ и многие другие. R — более популярный язык среди статистиков. Статистики используют математические методологии.

Вот некоторые различия между статистикой и машинным обучением:

  • Машинное обучение разрабатывается учеными-компьютерщиками, а статистика — математиками.
  • Машинное обучение построено на статистических основах.
  • Статистика была разработана в 17 веке, машинное обучение было разработано в 1959 году.
  • Машинное обучение является подполем искусственного интеллекта. Статистика — это раздел математики.
  • Машинное обучение находит обобщаемые прогностические шаблоны, в то время как статистика делает вывод о совокупности на основе выборки.
  • Машинное обучение — это подход «черного ящика». Статистика открывает BlackBox.
  • Машинному обучению требуется очень большой объем данных и атрибутов, в то время как статистике требуется меньше.
  • Статистика требует математических знаний. Машинное обучение требует как математических, так и алгоритмических знаний.
  • Статистика использует корреляцию между точками данных, в то время как машинное обучение используется для выдвижения гипотез.
  • ML делает меньше предположений, чем статистика.
  • Машинное обучение обладает большей предсказательной силой.
  • Машинное обучение требует меньше человеческих усилий, чем статистика.
  • Машинное обучение использует алгоритмы. Статистика использует уравнения.
  • Они используют разные инструменты

Наконец, я хочу в заключение сказать, что машинное обучение и статистика по сути эквивалентны, но практикуются разными сообществами. В настоящее время эти сообщества сотрудничают и обмениваются идеями. Машинное обучение придает большое значение вычислительному аспекту. Эти поля взаимосвязаны. Рост машинного обучения был очень полезен для статистики, а машинное обучение в значительной степени выиграло от статистики.

Первоначально опубликовано на https://www.yarsavision.com23 января 2020 г.