Авторы Анализ Кабрера и Синдху Шринатх
«Нет двух одинаковых листьев, и все же нет антагонизма между ними или между ветвями, на которых они растут» - Ганди
Соединенные Штаты, одна из самых могущественных стран в мире, на протяжении десятилетий насчитывает разнообразную группу людей, принадлежащих к разным расам, национальностям, полу и классам. Легенда Америки для нас была страной, где сбываются мечты, где упорный труд позволит вам подняться с безграничными возможностями.
Мы - два иммигранта, которые приехали в Соединенные Штаты полные надежды, твердо верящие в образование, чтобы стремиться к более высоким и лучшим возможностям. Недавно мы получили степень магистра в области цепочки поставок в Массачусетском технологическом институте, и поэтому у нас был другой взгляд на социальную динамику в этой стране, и он не был близок к тому, что мы представляли, когда иммигрировали.
Если Соединенные Штаты - одна из самых сильных экономик в мире, почему существует большая разница в доходах среди населения? Согласно данным Всемирного банка и американской переписи населения, в США наблюдается самое высокое неравенство доходов среди стран G7. Помня об этом и не отрывая глаз от инженеров, мы решили изучить данные и применить навыки машинного обучения, полученные в Массачусетском технологическом институте, чтобы определить особенности, которые могут предсказать неравенство доходов в Соединенных Штатах на уровне штата и округа.
Для измерения и сравнения неравенства доходов мы использовали индекс Джини. Индекс варьируется от 0 до 1, где 1 означает, что один человек получает весь доход в группе, а 0 указывает на полное равенство. Хотя мы считаем, что стремление к идеальному равенству не обязательно является целью, Соединенные Штаты могут снизить свой текущий индекс (0,47) по сравнению со средним показателем (0,33) среди стран G7.
Для нашего моделирования мы выдвинули гипотезу о том, что такие факторы, как демографические, расовые, образовательные, а также федеральные и государственные расходы на образование, потенциально могут быть предикторами неравенства доходов в Соединенных Штатах. Почему? Потому что мы начали с личного предположения, что образование помогает преодолеть неравенство доходов. Сумма, которую федеральное правительство и штаты тратят на образование, способствует увеличению числа людей с высшим образованием, а разнообразие рас в Соединенных Штатах делает социальную систему более сложной.
С помощью нашего моделирования мы хотели понять неравенство доходов путем анализа данных, чтобы определить наиболее точные предикторы среди указанных выше. Мы не ставили перед собой задачу ответить, почему существует неравенство доходов, предложить меры по его устранению или критиковать текущую ситуацию. Мы осознаем, что ответы на вопросы «почему» и «как» потребуют более комплексного подхода, а критика потребует глубоких знаний по этому вопросу, помимо поиска данных и запуска алгоритмов.
Перед тем, как поделиться всеми подробностями, позвольте нам раскрыть наш главный вывод: особенности расы предсказывают неравенство доходов с большей точностью, чем уровень образования, федеральные расходы и расходы штата или другие демографические элементы. В частности, мы обнаружили, что на основе доли черного и белого населения в штате модель машинного обучения может предсказать, находится ли состояние выше или ниже медианы неравенства доходов с точностью 96%.
Наша утопическая точка зрения была опровергнута нашей моделью - мы переоценили образование как главный фактор неравенства в Соединенных Штатах.
Прежде чем мы перейдем к модели прогнозирования и результатам, мы хотим поделиться с вами некоторыми соображениями о характеристиках населения в стране. Мы действительно надеемся, что вы узнаете столько же, сколько и мы, но, что наиболее важно, мы ожидаем, что эти факты повысят осведомленность и в идеале приведут к осознанным действиям.
Что мы узнали, анализируя данные
1. Латиноамериканцы или латиноамериканцы составляют самое многочисленное меньшинство в США, составляя 18% от общей численности населения. Они также являются одним из меньшинств с более низким процентом населения с высшим образованием [1] .
[1] Население со степенью бакалавра или выше
Согласно данным переписи населения, в 2018 году в Соединенных Штатах было ~ 330 миллионов жителей, из которых латиноамериканцы и / или латиноамериканцы составляли 18,3%, а чернокожее население не сильно отставало с ~ 40 миллионами человек. ~ 5% населения составляли азиаты, а оставшиеся ~ 4% составляли представители других рас, американские индейцы и коренные жители Аляски, коренные жители Гавайев и других островов Тихого океана (рис. 1).
2. У азиатов [2] самый высокий процент населения с высшим образованием своей расы
[2] Включает Дальний Восток, Юго-Восточную Азию и Индийский субконтинент.
Мы разделили количество людей с высшим образованием [1] на общую численность населения в возрасте 25 лет и старше по каждой расе и дополнительно извлекли это число на 1000 (Рисунок 2).
Мы отметили, что азиаты, хотя и составляли лишь ~ 5% от общей численности населения, были наиболее образованными [1] - 527 на 1000 человек. Более того, они составляли 10% от всего образованного населения [1].
После азиатов черное население было вторым наиболее образованным [1] меньшинством (рис. 3), составляя 9% от всего образованного населения; Однако на каждую 1000 образованных белых приходилось только ~ 600 образованных черных.
Для латиноамериканцев и латиноамериканцев количество образованных людей было ниже - всего 187 на 1000 человек. Они составляли 10% от общего числа образованных людей, и по сравнению с белым населением на 1000 белых было всего около 500 образованных латиноамериканцев. Хотя за последние 5 лет именно этот сегмент расы продемонстрировал самый высокий рост числа образованных людей с увеличением на 24% в период с 2013 по 2018 год (Рисунок 3).
3. В Массачусетсе самый большой процент населения с высшим образованием (45%), а в Западной Вирджинии - самый низкий (21%); в обоих штатах уровень неравенства доходов выше среднего.
По данным за 2018 год, 33% населения США старше 25 лет имеют образование со степенью бакалавра или выше. В период с 2013 по 2018 год этот показатель увеличился примерно на 4%. Однако распространение населения с высшим образованием наблюдается даже не по США.
Северо-восточный регион был выше среднего по стране, тогда как 70% южных штатов были ниже среднего. На графике ниже показано распределение населения с высшим образованием между штатами.
Кроме того, расходы на образование на федеральном уровне и уровне штата на одного учащегося увеличились на 23% за последние 5 лет, но неравенство осталось почти постоянным.
Модель прогноза и результаты
Для создания модели прогнозирования мы использовали алгоритмы контролируемого машинного обучения на Python, поэтому алгоритмы были изучены из предварительно размеченного набора обучающих данных.
Мы вводим данные по каждой функции с 2015 по 2018 год на уровне штата и округа и определили две категориальные цели (рисунок 5):
(1) Ниже или равняется медиане: штаты или округа классифицируются в этой категории, если их индекс Джини ниже или равен национальной медиане.
(2) Выше медианы: штаты или округа классифицируются в этой категории, если их индекс Джини выше национального медианного значения.
Как упоминалось ранее, рассматриваемые характеристики были связаны с демографией, расой, образованием, а также расходами на образование на федеральном уровне и уровне штата (таблица 1).
Мы случайным образом разделяем набор данных на данные для обучения и тестирования, чтобы запустить алгоритмы с различными комбинациями функций. Мы сравнили производительность между ними на основе точности тестирования.
Точность моделей (таблица 2) показала, что голосующий или случайный лесной классификатор, учитывающий только расовые особенности, предсказал неравенство доходов с наивысшей точностью теста - 96%.
Мы более подробно рассмотрели влияние различных рас на прогноз. Мы определили процент черного и белого населения как расы, которые больше всего повлияли на классификацию штатов.
Как видно на рисунке 6, в штатах с большим неравенством - (2) выше среднего уровня неравенства - процент чернокожего населения выше, по крайней мере, 8%.
Обратное происходило, если в штатах был более высокий процент белого населения (рис. 7). Чем выше процент белого населения, тем меньше вероятность неравенства.
Полученные нами результаты согласуются с текущими социальными проблемами в Соединенных Штатах, и даже когда мы знали об этом, читая новости и беседуя с нашими друзьями и профессиональными кругами, наличие данных, отражающих реальность, было тревожным сигналом. .
Мы знаем, что правительства, корпорации, образовательные учреждения и другие социальные организации работают над преобразованием к лучшему. Мы надеемся, что действия, которые они предпринимают, направлены на поиск реальных решений, однако мы считаем, что это также зависит от нас, чтобы занять определенную позицию, внести важный вклад, выйти за рамки самих себя и работать в направлении страны, которой мы мечтаем быть.