"Вероятность"
Вы уверены, что умеете считать?
Сетка 2x2, которую вы должны освоить, чтобы улучшить свои навыки вероятности и никогда больше не путать перестановки с комбинациями
Вы умеете считать? Вы умеете считать по пальцам? Я не говорю здесь о большом количестве. Просто цифры в ситуациях, с которыми вы, вероятно, время от времени сталкиваетесь. Конечно, вы должны уметь считать. Ведь умение считать - фундаментальный навык. Почему бы не пройти быструю самопроверку, чтобы оценить себя? Читать дальше!
Сколько пятибуквенных слов можно составить из букв слова ВЫЗОВ? Ответ - 6930. Возможно, это неинтересно и занудно. Давайте двигаться дальше…
Представьте, что вы на дне рождения в компании 22 человек. Насколько велика вероятность найти в этой компании двух человек с одинаковой датой рождения? ….
Возможно, маловероятно, учитывая, что в году 365 дней? Фактически….
В случайной группе всего из 23 человек шансы найти хотя бы одно совпадение по дате рождения более 50%. На самом деле, что очень удивительно, когда всего 57 человек, вероятность найти хотя бы одно совпадение по случаю дня рождения составляет 99%.
Вы находите это нелогичным? (зайдите на свою страницу в Facebook и проверьте список дней рождения вашего друга, и вы будете шокированы количеством совпадений, которые вы найдете!). Я дам вам интуитивное представление о приведенном выше результате в конце статьи.
Возможно, вышеперечисленные вопросы - не повседневная ситуация. Конечно, как насчет этого:
Вы голодны и идете в кафе, где можете приготовить себе бутерброд. Вы можете выбрать один из трех видов хлеба (панини, бургер, багет), один из трех видов основных наполнителей (куриный, рыбный, вегетарианский) и пять видов соусов (манго, чили, чипотле, барбекю, мята). Какое общее количество бутербродов можно получить в кафе?
Если вы могли легко ответить на приведенные выше вопросы, не задумываясь, то все готово. Оставшаяся статья не может добавлять никакой дополнительной ценности. Однако, если вышеперечисленные вопросы заставили вас почесать голову, продолжайте читать. И нет, вы не умеете считать, и с вами все в порядке. Способность быстро находить ответы на вопросы, подобные приведенным выше, требует осознанной практики и систематического обучения. Прочитав этот пост, вы научитесь систематически считать, что сможете легко применить в своей жизни.
Если вы интересуетесь наукой о данных, вы должны знать, что тема вероятности является фундаментальной для науки о данных. А умение считать - основа вероятности.
Прежде чем мы начнем, немного терминологии. Нам часто требуется «выборка» точек данных.
Концептуально это означает выбор подмножества элементов из большого пула всех элементов. Мы все время «пробуем» вещи.
Например, мы знаем, что кровяное давление 120 мм рт. Ст. / 80 мм рт. Затем мы сделали выводы по всей совокупности на основе полученной «выборки». Концептуально это ничем не отличается от выбора подмножества элементов из коробки, полной предметов, или выбора подмножества букв из слова для создания новых слов.
Еще одна концепция, которую вы должны понять, - это факториалы. н! представляет собой умножение всех целых чисел, начиная с n и вплоть до 1.
Теперь, когда вы знаете, что такое выборка и факториалы, вам нужно понять только четыре возможности. Да, всего четыре, и как только вы их усвоите, вы сможете сосчитать в любой ситуации, с которой столкнетесь. Это комбинация того, имеет ли значение порядок или не имеет значения, и выбираете ли вы элементы (то есть образцы из пула элементов) с заменой или без нее. Эти четыре возможности можно удобно представить в виде сетки 2 x 2.
По мере чтения мы будем заполнять эту таблицу. Есть только одно правило, которое вам нужно знать, которое затем поможет вам заполнить всю таблицу. Это правило известно как правило умножения (или правило произведения). Чтобы осмыслить это в своей голове, можно представить себе задачу выбора предметов как эксперимент с несколькими последовательными шагами (последовательная задача). На каждом этапе у вас есть определенное количество вариантов. Общее количество возможных вариантов умножается по мере вашего продвижения.
Переходя к примеру с сэндвичем, вы можете думать о выборе сэндвича как о многоступенчатом эксперименте. У вас есть 3 варианта выбора хлеба. После того, как вы выберете хлеб, у вас будет еще 3 варианта основного наполнителя. И, наконец, у вас есть 5 вариантов соуса. Используя правило умножения, вы можете заказать в общей сложности 45 различных типов бутербродов. Вы также можете визуализировать это с помощью древовидной диаграммы.
Теперь приступим к заполнению сетки 2x2.
Вопросы по заказу, с заменой
Представьте себе опрос случайного подмножества k людей из класса n человек, где один и тот же человек может быть случайным образом выбран более одного раза, и порядок, в котором выбираются участники, также имеет значение. Вы можете представить это как последовательный эксперимент с k шагами, где вы выбираете человека для опроса на каждом шаге. На первом этапе у вас есть n вариантов. На втором этапе у вас снова есть n вариантов выбора (поскольку это выборка с заменой). В дальнейшем у вас все еще будет n вариантов для вашего шага kᵗʰ. Используя правило умножения, у вас есть всего nᵏ вариантов.
Вопросы по заказу, без замены
Представьте себе ту же проблему, что и раньше, при опросе подмножества k человек из класса n человек. Однако, в отличие от прошлого раза, вы не можете выбрать одного и того же человека дважды. Это означает, что у вас будет n вариантов выбора для первого лица, но (n-1) вариантов выбора для выбора второго человека. Следовательно, у вас будет n (n-1) (n-2)…. (N-k + 1) вариантов.
Вы можете решить это в уме: на следующем этапе эксперимента у нас будет на один вариант меньше, пока мы не выполним все k шагов. Это означает, что на этапе kᵗʰ у нас будет n- (k + 1) вариантов. По правилу умножения сумма эквивалентна n (n-1) (n-2)… (n-k + 1). Выбор k элементов из n объектов, для которых важен порядок, также широко известен как «перестановка» (подробнее об этом чуть позже).
Заказ не имеет значения, без замены
Давайте использовать тот же пример, что и раньше, но на этот раз предположим, что порядок, в котором мы выбираем людей, тоже не имеет значения. Это означает, что предположим, что если мы выбрали A, затем B, а затем C, это ничем не отличается от выбора BAC или ACB. Если мы воспользуемся формулой перестановки, то мы будем перерасчитывать на k!. Поэтому нам необходимо исправить это, разделив на k!. Если вам интересно, почему мы завышаем счет на k! , подумайте о количестве перестановок k объектов. Сколько их? Они равны k! . И, следовательно, это объясняет, почему нам нужен поправочный коэффициент, равный k!.
Этот термин еще называют комбинацией. Перестановки и комбинации обычно преподаются на вводных курсах вероятности. Если вы когда-нибудь смешиваете эти два термина, вот простую мнемонику, которую я использую, чтобы запомнить. В перестановке важен порядок. Это потому, что он начинается с «P», так же как наши пароли начинаются с P, где порядок имеет значение (abcd - это другой пароль, чем bacd). Очевидно, вы получите большее число, когда порядок будет иметь значение, поэтому знаменатель имеет только (n-k)!. В комбинации порядок не имеет значения, следовательно, это меньшее число и дополнительное деление на k!.
Заказ не имеет значения, с заменой
Вы с меньшей вероятностью столкнетесь с ситуациями, когда этот сценарий применим, и его вывод немного сложнее. Однако далее следует интуитивное объяснение этого сценария с использованием прямоугольников и точек, вдохновленное профессором Блицштейном из Гарварда, который преподавал это на вводном курсе вероятности в Гарварде (подробнее об этом позже).
У вас есть n объектов, и вы можете каждый из n объектов k раз. Кроме того, на каждом этапе общее количество объектов остается неизменным, n. Поскольку порядок не имеет значения, вы можете визуализировать эту проблему в виде n блоков с k точками, распределенными между этими n блоками (см. Рисунок ниже , и обратите внимание, что на этот раз k может быть больше, чем n, поскольку это с заменой).
Глядя на рисунок, мы видим, что есть разделители n-1 и k точек. Обратите внимание, что точки, показанные на картинке, - это всего лишь один из способов присвоения точек прямоугольникам. Нам нужно найти оставшиеся способы присвоения k точек, которые соответствуют перемещению разделителей n-1 по горизонтальной оси. Это эквивалентно выбору k элементов из общего количества k + n-1 элементов (общее количество точек + общее количество разделителей). По сути, эта проблема сводится к более ранней проблеме «порядок не имеет значения, без замены», за исключением того, что общее количество элементов теперь не n , а n + k-1.
Последние мысли
Вам не нужно запоминать приведенные выше формулы, вместо этого сосредоточьтесь на интуиции, стоящей за каждой из них. Существует несколько курсов по вероятности, но мой любимый курс, который я настоятельно рекомендую, - это курс, предложенный профессором Джо Блитцштейном из Гарварда. Если вы хотите копнуть глубже, то Блицштейн подробно осветил тему счета в своих первых двух лекциях и в своей книге (также свободно доступной в Интернете).
Если вы хотите вычислить факториал любого числа в R, вы можете сделать это, используя следующий код:
factorial(n) # calculate factorial of n
Кроме того, если вам нужно рассчитать комбинацию выбора k элементов из n объектов, вы можете сделать это в R с помощью следующей встроенной команды (это также называется биномиальный коэффициент):
choose(n,k) # built-in R command for combination
И, кстати, решение более ранней проблемы количества пятибуквенных слов, которые мы можем образовать из слова «Вызовы», показано ниже.
Наконец, интуиция, стоящая за проблемой дня рождения, подробно объясняется профессором Блицштейном из Гарварда (видео ниже), но в двух словах:
Есть 255 пар людей, всего 23 человека (комбинация, где n = 23 и k = 2). Это уже больше половины числа дней в году, поэтому неудивительно, что в конце концов можно ожидать найти хотя бы одну пару с совпадением по случаю дня рождения.