Мои посты будут диалоговыми, и я буду упрощать математику, чтобы генерировать интуицию. Постепенно посты будут становиться математически сложными, но только до такой степени, что вы сможете интуитивно понять логику.
Догадка и условная вероятность. Пролог к теореме Байеса.
- Дело 1 ). Вам дали имена 100 случайных людей. Вас просят угадать их зарплаты. Вы не знаете ничего другого.
- Случай (2 ). Теперь вы знаете возраст этих 100 человек . Вас снова просят угадать их зарплаты.
- Случай (3 ). Теперь вы знаете их возраст, а также уровень образования. Вас снова просят угадать их зарплату.
- Случай (4 ). Теперь вы знаете их возраст , уровень образования и знаете место работы. Вас снова просят угадать их зарплату.
- Случай (5 ). Теперь вы знаете их возраст , уровень образования, место работы и знаете, что сегодня дождь. Вас просят повторно угадать их зарплаты.
Мы играем в простую, но мощную игру, чтобы проиллюстрировать контекст предсказания.
Весьма вероятно, что ваш прогноз в случае (4) является лучшим из множества. Так что же изменилось среди всех случаев? В случае (4) у вас больше информации, чем в любом предыдущем случае. Верно, но в случае (5) у вас есть еще больше информации. Однакоэта новая информация о том, что сегодня идет дождь, не добавляет никакой ценности и не относится к вашему прогнозу.
Проще говоря, возраст коррелирует с зарплатой, как и образование, как и рабочее место. Ваш прогноз заработной платы, переменная y, является функцией следующих переменных x: возраст, образование, место работы, но не зависит от того, идет ли сегодня дождь или нет. .
С математической точки зрения знание всех x позволяет вам уменьшить ошибку в вашем прогнозе. Теперь, о какой ошибке мы говорим? Ошибка — это реальная зарплата минус зарплата, которую вы предсказали.
Вернемся к искусству предсказания. Как работал ваш разум, когда вы пытались использовать предоставленную вам информацию?
Давайте проверим это.
1.Угадай зарплату 22-летнего мужчины.
2. Далее угадайте зарплату 22-летнего мужчины, работающего в Google.
3. Далее угадайте зарплату 22-летнего американца, работающего в Google, со степенью инженера Стэнфорда.
Каждый раз ваш разум пытается сузить распределение зарплат на основе дополнительной актуальной информации.
Это можно представить следующим образом. Позвольте мне завязать вам глаза и сказать, чтобы вы взяли мяч из большого контейнера. Этот контейнер содержит 20 желтых, 20 синих, 20 зеленые шары. Какова вероятность того, что вы выберете зеленый шар?
It is 20/60 = 1/3 .
Математически это представляется как P(g | 20 g , 20 y , 20 b ), что буквально означает следующее: Вероятность выбора зеленого шара, учитывая 20 зеленых, 20 желтых, 20 синих шаров в контейнере.
Далее я даю вам следующую дополнительную информацию.
Эти 60 шаров разделены на 3 отдельныхконтейнера меньшего размера, все внутри большого контейнера: черный, коричневый и оранжевый. В черном контейнере 12 желтых, 9 синих и 9 зеленых шаров. В коричневом контейнере 6 желтых, 9 синих и 11 зеленых шаров. В оранжевом контейнере находятся 2 желтых, 2 синих и 0 зеленых шаров. Теперь я сообщаю вам, что вы выбрали черный контейнер. Сможете ли вы определить вероятность того, что выпадет зеленый шар, с учетом этой дополнительной информации?
Да, сейчас 9/30, что составляет 0,3.
Математически это представляется как P(g | черный контейнер), что буквально означает следующее: Вероятность зеленого данного вы знаете, что выбрали задний контейнер.
Каждый раз, с каждым новым фрагментом релевантной информации, вы вычисляете вероятность из нового распределения. Это концепция условной вероятности. Каждая новая порция информации может изменить ваш прогноз. Если новая информация не имеет отношения к вашему прогнозу, прогнозируемое событие считается условно независимым от новой информации.
Например, даже если вы знаете, что сегодня идет дождь, эта информация не изменит вашу способность прогнозировать зарплату 100 случайных людей. Однако эта информация может изменить вашу способность прогнозировать пробки.
В следующих постах мы познакомимся с теоремой Байеса, ее приложениями для подбора кривых, базовой концепцией распределения вероятностей и алгоритмом максимального правдоподобия, широко используемым в приложениях машинного обучения. Я закончу этот пост интересной проблемой, основанной на концепции новой информации и условной вероятности:
Проблема Монти Холла. https://www.youtube.com/watch?v=9vRUxbzJZ9Y
Развлекайся!