Вам не нужно быть специалистом по статистике, чтобы ориентироваться в современном мире, но вот несколько основных идей, которые вы должны понимать.
Нет смысла избегать реальности. Наука о данных и, в более широком смысле, структуры, управляемые данными, находятся в центре общества, которое мы сейчас строим.
Когда в начале 2000-х впервые возникло увлечение информатикой, многие отметили, что информатика станет неотъемлемой частью каждой области. Это оказалось правдой. Компании из разных отраслей — здравоохранение, машиностроение, финансы и т. д. — начали нанимать инженеров-программистов для различных видов работ. Студенты этих областей начали учиться программировать.
Я бы сказал, что новый всплеск науки о данных делает еще один шаг вперед. В компьютерных науках можно просто нанять инженеров-программистов. Бизнес-менеджеру или специалисту по продажам необязательно понимать, чем занимаются эти люди.
Но наука о данных шире и более всеобъемлюща. Поскольку это смесь полей [1], его идеи актуальны даже для тех, кто не может быть повседневным специалистом по данным.
В этой статье я дам общий обзор четырех важных статистических идей, которые должен понять каждый, независимо от официальной должности. Независимо от того, являетесь ли вы менеджером проекта, рекрутером или даже генеральным директором, некоторый уровень знакомства с этими понятиями обязательно поможет вам в вашей работе. Кроме того, вне рабочего контекста знакомство с этими понятиями даст вам чувство грамотности данных, которое необходимо для навигации в современном обществе.
Давайте углубимся в это.
Просто большой, плохой образец
Еще будучи студентом, первый курс по науке о данных, который я прошел, состоял из огромного количества студентов — почти 2000. Курс «Основы науки о данных» был одним из самых популярных в кампусе, так как он был разработан, чтобы быть доступным для студентов со всего мира. отделы. Вместо того, чтобы сразу же углубляться в высшую математику и программирование, он сосредоточился на идеях высокого уровня, которые могли бы повлиять на студентов в разных областях.
Во время одной из наших первых лекций профессор сделал заявление, которое запомнилось мне на долгие годы и повторяется всякий раз, когда я работаю над чем-то, даже отдаленно связанным с данными. Она говорила о случайной выборке — широком термине, связанном с выбором подмножества изучаемой совокупности таким образом, чтобы она представляла всю совокупность. Идея состоит в том, что изучение подмножества должно позволить сделать выводы обо всей совокупности.
Она указала, что наличие хорошей выборки имеет первостепенное значение, поскольку никакие математические уловки и причудливые методы не могут компенсировать подмножество, которое на самом деле не является репрезентативным для населения, которому хотелось бы подражать. Говоря об этом, она упомянула, что многие люди предполагают, что если начальная выборка плохая, то разумным решением будет придерживаться того же подхода, но собрать большую выборку.
"Тогда у вас будет очень большая, очень плохая выборка", сказала она огромному лекционному залу, полному студентов колледжа.
Понимание этого основополагающего момента — и его более широких последствий — позволит вам разобраться во многих социально-политических явлениях, которые люди считают само собой разумеющимися. Почему президентские опросы часто неточны? Что делает кажущуюся мощной модель машинного обучения неэффективной в реальном мире? Почему некоторые компании производят продукты, которые никогда не увидят свет?
Часто ответ кроется в образце.
«Ошибка» не означает «ошибка»
Эта тема подразумевается в большинстве курсов, связанных с данными или статистикой, но мое обсуждение здесь вдохновлено акцентом Альберто Каиро на этом моменте в его превосходной книге Как лгут графики.
Предпосылка книги Каиро состоит в том, чтобы обрисовать различные способы, которыми визуализация данных может быть использована для обмана людей, как непреднамеренного, так и злонамеренного. В одной из глав Каиро рассказывает о проблемах визуализации неопределенности данных и о том, как это само по себе может привести к вводящей в заблуждение визуализации данных.
Он начинает с некоторого обсуждения идеи ошибки в статистике. Он отмечает важный момент: хотя в стандартном английском языке термин «ошибка» является синонимом «ошибки», в области статистики это совсем не так.
Понятие статистической ошибки связано с неопределенностью. Почти всегда всегда в измерениях и моделях будет какая-либо ошибка. Это связано с предыдущим пунктом о образцах. Поскольку у вас нет всех точек данных для населения, которое вы хотите описать, вы по определению столкнетесь с неопределенностью. Это еще больше усугубляется, если вы делаете прогнозы о будущих точках данных, поскольку они еще не существуют.
Минимизация и устранение неопределенности — важная часть статистики и науки о данных, но она выходит далеко за рамки данной статьи. Здесь основной момент, который вы должны усвоить, состоит в том, что если статистический вывод дается вам с некоторой степенью неопределенности, это не означает, что он ошибочен. На самом деле, это, вероятно, показатель того, что тот, кто производил выводы, знал, что делал (вы должны скептически относиться к статистическим заявлениям, сделанным без какой-либо ссылки на уровень неопределенности).
Узнайте, как правильно интерпретировать неопределенность в статистических утверждениях [2], а не списывайте их со счетов как неверные. Это существенное отличие.
Вы не всегда можете просто «сделать для этого модель»
Среди населения в целом бытует мнение, что искусственный интеллект — это своего рода волшебный инструмент, который может выполнить все что угодно. С появлением беспилотных автомобилей и реалистичных виртуальных помощников, но без аналогичного ускорения в общей грамотности данных, неудивительно, что такое мышление развилось.
К сожалению, это не может быть дальше от истины. ИИ — это не магия. Он сильно зависит от хороших данных, и его результаты на самом деле могут ввести в заблуждение, если исходные данные плохого качества.
Однажды у меня была коллега, которой поручили проект, в котором ее задачей было построить модель машинного обучения для определенной цели. Он предназначался для классификации будущих событий по определенным категориям на основе исторических данных.
Была только одна проблема: у нее не было никаких данных. Другие участники проекта (которые, в частности, не были знакомы с наукой о данных) продолжали настаивать на том, чтобы она просто создала модель, даже если у нее не было данных, потому что машинное обучение — это сверхмощное средство, и это должно быть выполнимо. Они не понимали, что их просьба просто невыполнима.
Да, машинное обучение — это мощное средство, и да, с его помощью мы становимся все лучше и лучше справляемся с задачами. Однако, как обстоят дела, это не просто волшебное решение для всего. Вам бы хорошо помнить об этом.
Цифры лгут
Люди разбрасываются фразой «числа не лгут», как будто это конфетти.
О, если бы они только знали. Цифры на самом деле лгут. Много. В некоторых настройках даже чаще, чем правду говорят. Но они не лгут, потому что на самом деле неправы в чистом виде; они лгут, потому что обычный человек не знает, как их интерпретировать.
Существует бесчисленное множество примеров того, как числа можно искажать, манипулировать, изменять и преобразовывать, чтобы поддержать аргумент, который вы хотите выдвинуть. Чтобы донести мысль, здесь я приведу один пример того, как это можно сделать: отказ от учета базового распределения населения при составлении общих заявлений.
Это немного расплывчато само по себе, поэтому давайте рассмотрим пример. Рассмотрим следующий сценарий, часто предлагаемый студентам-медикам:
Предположим, что определенное заболевание поражает 1 из 1000 человек в популяции. Есть тест, чтобы проверить, есть ли у человека это заболевание. Тест не дает ложноотрицательных результатов (то есть любой, у кого есть заболевание, будет иметь положительный результат), но частота ложноположительных результатов составляет 5% (есть 5%-ная вероятность того, что человек даст положительный результат, даже если у него нет заболевания). ). Предположим, случайно выбранный человек из населения проходит тест и дает положительный результат. Какова вероятность того, что они действительно больны этим заболеванием?
На первый взгляд разумный ответ, данный многими людьми, составляет 95%. Некоторые могут даже зайти так далеко, что заподозрить, что просто использовать коэффициент ложных срабатываний для такого определения не совсем математически точно, но они, вероятно, все равно догадаются, что ответ находится где-то рядом.
К сожалению, правильный ответ не равен 95% или близко к этому. Фактическая вероятность того, что этот случайно выбранный человек болен, составляет примерно 2%.
Причина, по которой большинство людей так далеки от правильного ответа, заключается в том, что, хотя они обращают внимание на низкий уровень ложноположительных результатов, они не принимают во внимание лежащую в основе распространенность заболевания среди населения: всего 1/1000 (или 0,1%) людей в населенности фактическ имеют это заболевание. В результате этот ложноположительный показатель в 5% фактически влияет на многих людей, потому что очень немногие из них имеют заболевание с самого начала. Другими словами, есть много, много возможностей быть ложноположительным.
Формальная математика, стоящая за этим, выходит за рамки данной статьи, но вы можете увидеть подробное объяснение здесь, если вам интересно [3]. Тем не менее, вам не нужно погружаться в математику, чтобы понять главное: Можно представить, как использовать описанный выше сценарий, чтобы напугать человека, заставив его поверить в то, что он гораздо более подвержен риску заболевания, чем на самом деле. . Одни только цифры часто могут быть искажены и/или неправильно истолкованы, чтобы способствовать распространению ложных убеждений.
Будьте бдительны.
Заключительные мысли и итоги
Вот небольшая шпаргалка по важным выводам из этой статьи:
- Большая выборка = хорошая выборка. Для обеспечения точного представления населения требуется больше, чем количество.
- В статистике "ошибка" не означает "ошибка". Это связано с неопределенностью, которая является неизбежным элементом статистической работы.
- Машинное обучение и искусственный интеллект — это не волшебство. Они в значительной степени зависят от качества исходных данных.
- Цифры могут вводить в заблуждение. Когда кто-то делает статистическое заявление, особенно в неакадемическом (читай: в новостях) контексте, внимательно изучите его, прежде чем принимать выводы.
Вам не нужно быть экспертом в статистике, чтобы ориентироваться в этом мире, управляемом данными, но вам было бы полезно понять некоторые основополагающие идеи и знать, каких ловушек следует избегать. Я надеюсь, что эта статья помогла вам сделать этот первый шаг.
До скорого.
Хотите преуспеть в Python? Получите эксклюзивный бесплатный доступ к моим простым и понятным руководствам здесь. Хотите читать неограниченное количество историй на Medium? Зарегистрируйтесь по моей реферальной ссылке ниже!
Рекомендации
[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78
[2] https://bookdown.org/jgscott/DSGI/statistical- неопределенность.html
[3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/