Технология: машинное обучение

Когда мужчины по умолчанию

Что мы можем узнать из предубеждений Википедии

Вы когда-нибудь задумывались, как выглядит известный человек? Или почему девять из девяти известных людей на изображении выше, созданном DALL-E Mini, — мужчины? С тех пор, как Лаура Малви описала мужской взгляд в своем эссе Визуальное удовольствие и повествовательное кино, мы использовали эту линзу, чтобы лучше понять, как женщины изображаются (или не изображаются) в искусстве. Но за чьим взглядом мы следим, когда смотрим на произведения, созданные компьютером?

Глядя на Википедию, можно получить некоторое представление — как потому, что она часто используется для обучения инструментов машинного обучения, так и потому, что она хорошо изучена, особенно в отношении пола.

У меня есть коллекция исследований, интервью и эссе, посвященных гендеру в Википедии — 119 штук на момент написания этой статьи. Мы знаем, например, что большинство редакторов Википедии — мужчины. Мы знаем, что доля мужских биографий в Википедии составляет чуть более 80%. Мы знаем о структурных предубеждениях — факте, что женщины менее важны в сети знаний. И предвзятость цитирования — женщин-писателей недоцитируют. И мы рассмотрели предвзятость в языке, используемом для описания людей.

Как все это влияет на инструменты, обученные этому контенту?

Исследователи, которых я читал, выражают обеспокоенность. Лэнгрок и Гонсалес-Байлон, которые изучают феминистские вмешательства в Википедию, обнаружили, что нынешние усилия по исправлению известных гендерных различий путем создания страниц с биографиями известных женщин сами по себе недостаточны для устранения гендерной предвзятости на сайте. Женские страницы остаются менее важными в сети — с меньшим количеством входящих ссылок и информационных блоков — и, следовательно, менее заметны и их труднее найти. Ссылки на биографии женщин составляют лишь 7% ссылок на людей в 100 важных статьях 2-го уровня Википедии (включая такие страницы, как Климат, Астрономия и Бизнес). ), например.

Отмечая, что контент Википедии используется для обучения моделей машинного обучения, среди других последующих приложений, авторы статьи пишут:

Неравенство внутри структурных свойств Википедии — информационного блока и сети гиперссылок — может иметь серьезные последствия за пределами платформы… гендерное неравенство, которое мы выявляем, может иметь большое влияние на поведение при поиске информации на различных цифровых платформах и устройствах.

Николас Винсент и Брент Хехт, изучившие Википедию и поисковые системы, обнаружили, что ссылки на Википедию появляются на 81–84% страниц результатов поиска по общим запросам, а также преобладают в панелях знаний, которые особенно заметны на экранах результатов. Википедия также используется за кулисами, чтобы помочь поисковой системе построить графы знаний, которые, среди прочего, помогают технологии понять отношения между вещами.

«Контент Википедии оказывает огромное влияние далеко за пределы веб-сайта wikipedia.org», — пишут авторы, отмечая, что «особенно важным следствием является то, что предвзятость контента Википедии повлияет на результаты поиска».

Недавно Оскар ван дорогой Уолл и др. обучили LSTM в Википедии и изучили параметры по мере их изменения с течением времени, чтобы лучше понять, в первую очередь, как языковые модели становятся предвзятыми. Одна из интересных вещей, которую они наблюдают, — это развитие гендерной единицы, которая сильно управляется женскими маркерами, тогда как мужские маркеры доминируют в развитии гендерной информации, которая распределяется по всем другим измерениям.

Мне вспоминаются «инженеры» и «женщины-инженеры», «ученые» и «женщины-ученые», мир, в котором мужчины по умолчанию используются во всем, кроме, ну, быть женщиной.

Сегодня поиск в Google по запросу «ученые» с моего ноутбука возвращает связанный поиск «15 ученых и их изобретения», который раскрывается в избранный список из 29 парней и Марии Кюри. Почему мы до сих пор показываем такую ​​панель? Почему поисковая система установила именно эти связи?

Гендерная предвзятость распространена в Википедии. Мы можем увидеть и изучить его там. И, может быть, сделав его более заметным, мы сможем его исправить — как в Википедии, так и в приложениях, которые учатся на онлайн-контенте. Потому что сейчас 2022 год. Сексизму действительно нет места.

Подробнее о структурных предубеждениях читайте в Википедии:





Процитированные работы

Бальц, Самуэль. «Уменьшение предвзятости в освещении Википедии политологов». PS: Политическая наука и политика 55, вып. 2 (2022): 439–444.

Брун, Натали Болон, София Кипрайоу, Наталья Гуллон Альтес и Ирен Петлакалько Барриос. «Викигендер: модель машинного обучения для обнаружения гендерных предубеждений в Википедии».

Лангрок, Изабель и Сандра Гонсалес-Байлон. «Гендерный разрыв в Википедии: количественная оценка и оценка воздействия двух феминистских вмешательств». Journal of Communication 72, вып. 3 (2022): 297–321.

Малви, Лора. «Визуальное удовольствие и повествовательное кино». В Визуальные и другие удовольствия, стр. 14–26. Пэлгрейв Макмиллан, Лондон, 1989 г.

Ван Дер Валь, Оскар, Яап Джумлет, Катрин Шульц и Виллем Зуйдема. «Рождение предвзятости: тематическое исследование эволюции гендерных предубеждений в модели английского языка». препринт arXiv arXiv:2207.10245 (2022).

Винсент, Николас и Брент Хект. «Более глубокое исследование важности ссылок на Википедию для результатов поисковых систем». Протоколы ACM по взаимодействию человека с компьютером 5, вып. CSCW1 (2021): 1–15.

WikiProject Women in Red: https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Women_in_Red