В этой серии из трех частей я стремлюсь проанализировать события недавних всеобщих выборов в Сингапуре 2020 года с точки зрения энтузиаста данных.

По мере того, как пыль от всеобщих выборов начинает оседать, я нашел время на выходных, чтобы взглянуть на несколько аспектов общенационального события, которое было такой горячей темой в последние несколько дней.

Во-первых, немного контекста - будучи впервые голосующим на всеобщих выборах в Сингапуре 2020 года, я был чрезвычайно взволнован тем, что отдал свой голос. Я знал, как важно сделать осознанный выбор, и провел несколько дней перед голосованием, пытаясь понять многие политики и взгляды, изложенные различными политическими партиями, поскольку они определят перспективы Сингапура на следующие 5 лет - решающий момент. когда я буду проводить свои первые годы в составе рабочей силы Сингапура.

Система голосования

Для GE 2020 Сингапур был разделен на разные округа со смесью одномандатных округов (SMC) и групповых представительств (GRC). В обоих этих округах для победы требовалось минимум 50% голосов.

С момента обретения Сингапуром независимости в 1965 году Партия народного действия (ПНД) занимала большинство постов в парламенте. На предыдущих выборах ППА занимала подавляющее большинство мест в парламенте - 83 из 89.

Таким образом, эти выборы предоставили оппозиции возможность выступить против ППА. Поскольку выборы проводились в период Covid-19, это неизбежно привело к введению многих ограничений, но также открыло новые возможности для кандидатов на связь с гражданами.

После 10-дневной кампании сингапурцы наконец отдали свои голоса в день голосования, 10 июля. Поскольку все, затаив дыхание, ждали, пока будут подсчитаны голоса, по всей стране раздались аплодисменты, поскольку выборочный подсчет голосов был произведен менее чем через час после закрытия голосования.

Количество образцов

Введенный в GE 2015, подсчет выборок использовался как средство раннего определения того, собирается ли партия добиться успеха в своей кампании.

Наблюдение за подсчетом выборок по телевидению вызывало у многих волнение и не зря - многие утверждали, что несколько оппозиционных партий представили на этих выборах надежных кандидатов. Я как энтузиаст данных, это побудило меня задать вопрос: насколько надежными были выборочные голоса в качестве раннего сигнала для определения, выиграет партия или нет?

Согласно заключению GE2020, мы можем легко смоделировать количество наших выборок в каждой спорной области как биномиальное распределение с n = 100 (поскольку в каждой области считается по 100 выборок) и p = доля голосов ППА в округе.

Например, в случае с Hougang SMC, 9776 из 9776 + 15416 = 25 912 голосов достались ППА. Это дает p = 9776/25 912 = 37,7%.

Оглядываясь назад, мы знали, что при подсчете выборки было получено 42 голоса из 100 за ППА. Однако мы легко могли наблюдать другие возможные значения (например, 40, 41, 43, 44 и т. Д.) Из 100, которые были отобраны. Построив график возможных результатов подсчета выборки против вероятностей, заданных биномиальным распределением, мы можем наблюдать следующие результаты:

Хотя подсчет выборки достаточно показывал результат победившей партии в этом округе (оппозиция, которой была Партия Рабочей, в конечном итоге победила в Hougang SMC), можно утверждать, что подсчет выборки был довольно далеким исходя из окончательных результатов (37,7% против 42%, разница примерно в 5%).

Таким образом, возникает следующий вопрос - будет ли такое резкое различие иметь место и для других округов?

Поскольку дистрибутивы будут различаться в разных округах, я решил написать программу на Python, чтобы определить этот ответ. Во-первых, взглянем на набор данных с данными, полученными с официальных сайтов Департамента выборов Сингапура как для выборочного подсчета, так и для окончательных результатов:

Затем я выполнил простую стандартизацию, чтобы определить, насколько далеко процент отсчета выборки был от окончательного подсчета, используя программу Python.

Как видно на графике выше, подавляющее большинство избирательных округов наблюдали подсчет выборок, который был очень похож (близость на 90%) к окончательному подсчету. Однако интересно отметить, что были округа, в которых подсчет выборок был относительно далек от фактических результатов - 4 из них можно отчетливо увидеть на графике выше.

Хотя мы близки к тому, чтобы сделать вывод о том, что количество выборок может быть репрезентативным для фактических результатов, здесь есть несколько выбросов, вызывающих беспокойство. Что может быть общего в этих 4 выбросах?

Размер имеет значение?

Из-за любопытства я решил изучить, есть ли в моих данных другие факторы, которые могли бы помочь мне определить, что такого особенного в этих 4 выбросах. В частности, я хотел проверить, повлияет ли размер округа на точность подсчета выборки. Добавив несколько строк кода, я получил следующие результаты.

А-ха! Мы наблюдаем, что 4 проблемных пункта данных показали меньшую численность населения по сравнению с более крупными округами. Напротив, в округах с большим населением это явление почти никогда не наблюдалось.

Это исследование также продемонстрировало важную концепцию машинного обучения - важность выбора достаточных и репрезентативных выборок. Когда я впервые заинтересовался аналитикой данных, я часто для удобства выполнял простые команды train_test_split для своих моделей машинного обучения, но только через несколько месяцев я осознал важность отступления и тщательного изучения своих данных.

Без признания возможных компромиссов смещения и дисперсии и реализации таких методов, как перекрестная проверка в K-кратном размере , это часто снижает точность и эффективность моделей машинного обучения.

Показательный пример: резкие различия между подсчетом выборки и фактическими результатами выборов в нескольких регионах.

Вывод

В этой статье я показал, что подсчет проб, использованный во время GE2020, может в значительной степени использоваться для обозначения конечного результата результатов. Это было сделано задним числом путем моделирования биномиального распределения. Однако точность подсчета выборки может быть ограничена размером избирательных округов.

Я также подчеркнул важность выбора репрезентативных выборок при обучении моделей машинного обучения, поскольку небольшой размер популяции может привести к смещению выборки, что приведет к неточности моделей.

В следующей статье я исследую горячие темы, обсуждавшиеся во время всеобщих выборов, с использованием методов обработки естественного языка.