Токсичность при создании текста AI
Почему языковые модели генерируют токсичные результаты и что с этим можно сделать
Недавно я реализовал небольшой проект НЛП, в котором я задал двум чат-ботам с открытым доменом 36 вопросов, чтобы влюбиться. То, что начиналось как развлечение, привлекло мое внимание к проблеме токсичности при создании текста ИИ. Сначала я задал языковой модели (LM) GPT-2 36 вопросов. Но я был шокирован некоторыми ответами модели, которые содержали ненавистные и проблемные выражения, и я решил не публиковать их ответы.
За исключением пары анекдотов о том, что ИИ пошел не так, как надо, я раньше не имел дела с этой стороной генерации текста. Однако я понял, что крайне важно осознавать потенциальный вред, причиняемый применением языковых моделей в проектах, ориентированных на пользователя. Итак, я прочитал, почему языковые модели имеют тенденцию создавать такой ненавистный язык и как эту проблему можно решить.
В различных исследовательских работах изучались токсичность и социальная предвзятость, присущие авторегрессионным LM, таким как GPT-2 [1] » - и моделям двунаправленного кодера, таким как «BERT [2]. В этой статье представлен обзор генерации токсичных языков, а также описаны ее основные проблемы и решения. Я обсуждаю, что означает токсичность при создании текста, почему это происходит и как с этим бороться в настоящее время. Я также обращаюсь к некоторым этическим соображениям, связанным с детоксикацией языковых моделей.
1. Что такое токсичность?
Как отметила Лилиан Вен в своем сообщении в блоге, точное определение токсичности по отношению к LM варьируется. Jigsaw и команда Google по противодействию злоупотреблениям разработали Perspective API, который определяет ядовитую лексику в онлайн-разговорах. Они определяют токсичность как
грубый, неуважительный или необоснованный комментарий, который может заставить вас покинуть обсуждение.
Дхамала и др. [3] создал набор данных и метрики для исследования социальных предубеждений и токсичности при генерации открытого текста. Они определили токсичный язык как передачу контента,
неуважительно, оскорбительно, неприятно и / или вредно.
Павлопулос и др. [4] исследовал, может ли контекст, окружающий потенциально токсичный комментарий, помочь повысить эффективность моделей обнаружения токсичности. Они считали токсичность общим термином, состоящим из нескольких подтипов, таких как оскорбительные, оскорбительные и ненавистные выражения. Исходя из этих определений, токсичность не является четко определенной конструкцией. Это широкий термин, охватывающий различные формы оскорбительной, проблемной или вредной лексики.
2. Обнаружение токсичности в сравнении с генерацией токсичности
В ходе исследования для этой статьи я обнаружил, что научные статьи, посвященные токсичности НЛП, можно в общих чертах разделить на тему обнаружения токсичного языка или генерации токсичного языка. Хотя это сообщение в блоге посвящено генерации токсичных языков, общее понимание определения токсичных языков помогает при поиске решений для токсичных языковых моделей.
Различные исследования направлены на разработку автоматизированных систем для обнаружения ядовитого языка, написанного людьми и широко распространенного в онлайн-дискуссиях [5]. Хотя ругательства, кажется, указывают на токсичность, язык без таких слов все же может быть токсичным. Простого подхода Я знаю, когда увижу недостаточно при построении наборов данных и моделей для обнаружения токсичности. Контекст и нюансы языка имеют значение, и определение причин оскорбления часто бывает субъективным [6]. Sheth et al. [7] предоставляют отличный обзор проблем, связанных с определением и идентификацией токсичного содержимого.
В этой области обнаружения токсичности существует проблема предвзятых моделей обнаружения. Было показано, что модели понимания естественного языка (NLU), используемые для обнаружения токсичности, включают предвзятость - особенно в отношении текста, созданного расовыми меньшинствами, и упоминания идентичности меньшинств [1] - которые ограничивают способность модели правильно обозначать токсичный язык [6] . Приглушить голоса меньшинств, пометив их нетоксичное содержание как токсичное, также поднимает этические вопросы [8].
Социальные предубеждения, связанные с расой, полом, религией, этнической принадлежностью, сексуальной ориентацией и другими защищенными идентичностями, также присутствуют в LM, предназначенных для создания текста. Они проявляются на токсичном языке, создаваемом этими моделями. Эти LM также выводят язык, содержащий ругательства, угрозы и оскорбления. Gehman et al. [1] показал, что пять разных LM - включая GPT, GPT-2 и GPT-3 - все производили по крайней мере один токсичный комментарий за 100 поколений. Даже относительно безобидные вводные данные для этих моделей в качестве подсказок приводили к генерации токсичного текста. Интерактивный обзор этого исследования показан здесь.
3. Почему возникает токсичность?
Современные языковые модели (SOTA), такие как GPT-2 и GPT-3, предварительно обучаются с использованием больших текстовых корпусов из Интернета. LM учатся предсказывать следующий токен в последовательности (или слово в предложении соответственно). Если в модель загружаются обучающие данные, содержащие ругательства или грубую лексику, она научится предсказывать эти слова на этапе обучения и генерировать выходные данные, содержащие их, позже. Предвзятый язык, который имеет стереотипы, унижает или игнорирует защищенные идентичности, также изучается и воспроизводится во время вывода с помощью этих моделей.
Исследование BookCorpus - часто используемого набора данных для предварительного обучения LM, содержащего более 11 000 книг - показало, что он включает проблемный контент, связанный с полом и искаженное представление жанра, религии и авторов . OpenWebTextCorpus - набор данных, воспроизводящий данные обучения, используемые для GPT-2, - содержит содержимое исходящих ссылок на Reddit. Gehman et al. [1] продемонстрировал, что этот набор данных содержит не менее 50 000 токсичных предложений с баллом токсичности (интерпретируемым как вероятность) 0,51 или выше, измеренным с помощью Perspective API.
Как упоминалось ранее, при определении того, что является токсичным, важен контекст. К сожалению, язык, который не является токсичным в определенном контексте, может быть перетасован языковыми моделями, которые производят токсичные результаты при вводе наводящих подсказок [1]. Чтобы проиллюстрировать этот момент, вы можете придумать слова, используемые в объективном описании преступления. Затем эти слова используются моделью в предложении, чтобы сформулировать угрозу, явно проявляющую токсичность. Таким образом, как контроль процесса генерации предварительно обученных LM, так и использование чистых и нетоксичных наборов данных для предварительного обучения важны, чтобы избежать токсичных результатов [1].
4. Как можно уменьшить образование токсичности?
Многочисленные подходы, различающиеся по сложности и ресурсоемкости, направлены на уменьшение токсичного содержания, создаваемого языковыми моделями. Я кратко представлю некоторые методы и перечислю их преимущества и ограничения. Перечисление всех доступных методов выходит за рамки этой статьи.
Согласно Gehman et al. [1], эти методы можно разделить на стратегии на основе данных или стратегии на основе декодирования. Стратегии, основанные на данных, включают дополнительное предварительное обучение модели и изменение параметров модели, что делает эти подходы дорогостоящими в вычислительном отношении. Методы на основе декодирования изменяют только алгоритм декодирования LM, а параметры модели остаются неизменными [1]. Таким образом, стратегии декодирования обычно имеют то преимущество, что они более доступны для практиков и менее дороги.
Ссылки в названиях стратегий ведут к сообщениям в блогах с их объяснением (если таковые имеются) или к оригинальной академической статье, представляющей эти методы.
Domain-Adaptive Pre-Training (DAPT)
Стратегия на основе данных: дополнительное предварительное обучение LM проводится с использованием нетоксичных наборов данных [ 1, 9, 10]. Преимущество: одна из самых эффективных стратегий снижения токсичности [1]. Ограничения: вычислительно затратно [1]. Требуются дополнительные данные для обучения, сбор которых может быть дорогостоящим при привлечении людей с помощью краудсорсинга.
Атрибут кондиционирования (на основе CTRL)
Стратегия на основе данных. Дальнейшее предварительное обучение LM проводится с использованием обучающих выборок, к которым добавлен атрибут токсичный или нетоксичный. Во время вывода (генерации текста) атрибут нетоксичный может быть добавлен к подсказке, выдаваемой модели [1]. Ограничения: вычислительно дорого. Менее эффективен, чем DAPT, PPLM и смещение словарного запаса [1].
Блокировка (фильтрация слов)
Стратегия на основе декодирования: нежелательным словам, таким как ругательства, ненормативная лексика и оскорбления, в LM присваивается нулевая вероятность, что предотвращает их создание (см. [1] и здесь ). Преимущество: простота реализации. Ограничения: токсичность без этих слов может все еще иметь место. Контекст, в котором эти слова могут быть приемлемыми, не принимается во внимание.
Сдвиг словарного запаса
Стратегия на основе декодирования: двумерное представление токсичности и нетоксичности для каждого токена в словаре модели используется для повышения вероятности создания нетоксичных токенов [1]. Преимущество: показано, что токсичность снижается сравнительно лучше, чем в блокированном списке [1]. Ограничения: сложнее реализовать, чем занесение в черный список.
Языковые модели Plug and Play (PPLM)
Стратегия на основе декодирования: простая модель (набор слов или однослойный классификатор) используется в качестве дискриминатора (или атрибутивной модели), который направляет создание языка LM, изменяя его скрытые представления. [1, 11]. Преимущества: одна из самых эффективных стратегий снижения токсичности [1]. Ограничения: очень затратно с точки зрения вычислений.
Генеративный дискриминатор (GeDi)
Стратегия на основе декодирования: LM, обусловленный атрибутом (или условным классом), используется в качестве дискриминатора, который вычисляет вероятности класса (например, токсичный или нетоксичный) с использованием правила Байеса для всех потенциальных следующих токены, которые может генерировать основная LM [12]. Преимущества: более эффективный с точки зрения вычислений, чем PPLM. По эффективности детоксикации превосходит PPLM [12]. Ограничения: по-прежнему одна из наиболее сложных стратегий.
Самоуничижение
Стратегия на основе декодирования. Алгоритм самодиагностики используется для снижения вероятности генерирования токсичных слов путем добавления краткого описания атрибута (например, Следующий текст содержит токсичность) к предоставленной подсказке ввода. к ЛМ [13]. Преимущества: в отличие от стратегии CTRL, дополнительное обучение не требуется. Ограничения: эта стратегия до сих пор оценивалась только с использованием атрибутов токсичности и систематической ошибки, предоставляемых Perspective API. Он часто отфильтровывает безобидные слова. Его способность к детоксикации ограничивается осведомленностью модели о соответствующих предубеждениях и токсичности [13].
Существуют различные другие стратегии снижения токсичности в рамках контролируемой генерации [11]. Передача стиля текста - это связанный подход, который переводит токсичные предложения в нетоксичные версии. Однако его основное применение было связано с борьбой с созданием токсичных текстов людьми в социальных сетях, а не с детоксикацией языковых моделей.
Gehman et al. [1] в своем исследовании обнаружил, что и корпуса веб-текста, и генерация нейронного языка содержат значительное количество токсичного контента. Их результаты показывают, что ни одна из стратегий детоксикации не устранила весь токсичный язык. Однако эти стратегии снижали показатели токсичности и вероятность создания токсичного комментария раз в 25 поколений текста. В целом это показывает перспективность методов на основе декодирования, а также подчеркивает важность тщательного выбора наборов данных для предварительного обучения для языковых моделей.
5. Этические аспекты детоксикации и языковые модели.
В разделе 2 вкратце затрагивается проблема предвзятости при обнаружении токсичности, которая часто происходит за счет меньшинств, чья речь ошибочно определяется как токсичная. Подобные предубеждения существуют и в детоксифицированных языковых моделях. Если упоминается идентичность меньшинств и диалекты меньшинств классифицируются как токсичные стратегиями детоксикации, общение между меньшинствами и системами НЛП затрудняется. Неспособность LM понимать и отвечать на запросы пользователя может быть воспринята как микроагрессия [10].
Предвзятая детоксикация также может вести к избеганию определенных тем - таких как религия или пол - в нетоксичных контекстах. Такое избегание может вызвать самостигматизацию, когда пользователь взаимодействует с системой НЛП, потому что он может чувствовать, что его личность и реальность не имеют значения [10]. Поэтому разработка методов детоксикации языковых моделей, а также их разработка таким образом, чтобы уменьшить предвзятость, имеют важное значение.
Участие женщин и членов групп меньшинств в процессе разработки может помочь повысить осведомленность и уменьшить предвзятость в этих системах. Более того, наборы данных, используемые для предварительного обучения языковых моделей и стратегий детоксикации, могут снизить токсичность и предвзятость при тщательном выборе. Кто решает, на каких языковых моделях данных обучают - сложный вопрос, на который нет простого ответа [1]. Однако это необходимо обсудить.
Кроме того, при создании наборов данных необходимо учитывать смещение аннотаций и выборки [10]. Смещение аннотаций означает, что люди, которым поручено создавать помеченные наборы данных и определять токсичность предложения, могут неправильно помечать диалекты меньшинств как токсичные. Предвзятость выборки увеличивает предвзятую детоксикацию, потому что ядовитый язык часто направлен против меньшинств, создавая корреляцию между упоминаниями идентичности меньшинства и токсичными словами.
Последние мысли
Токсичность языковых моделей - гораздо более сложная и широкая тема, чем я ожидал, как с технической точки зрения, так и с этических соображений. Языковые модели, извергающие ненавистные и ядовитые выражения, усиливающие стереотипы и социальные предубеждения, наносят ущерб общественному дискурсу, психическому здоровью и демократическим институтам. В то же время предвзятые стратегии детоксикации могут вызвать стигматизацию определенных тем и нетоксичного языка, заставляя замолчать голоса меньшинств. Таким образом, путь к ответственным, нетоксичным и беспристрастным LM требует нюансов, понимания предвзятости и участия конечного пользователя на всех этапах разработки модели.
При написании этой статьи я осознавал свою ответственность за работу с моделями НЛП. Это исследование показало мне, что создание языковых моделей, ориентированных на пользователя, может иметь серьезные последствия и должно быть хорошо продумано. Я также решил не публиковать какой-либо токсичный контент, созданный в ходе моего проекта 36 вопросов, потому что я не хочу, чтобы какой-либо будущий набор данных, созданный путем очистки Интернета, содержал эти проблемные примеры.
Хотите читать больше качественных историй на Medium? Рассмотрите возможность подписки на членство, которое поддерживает меня и других авторов Medium.
Вы хотите продемонстрировать свои проекты в области науки о данных, но не знаете, как это сделать? Ознакомьтесь с моим руководством по созданию веб-сайта-портфолио по науке о данных:
Ссылки на научные статьи
[1] Геман, С., Гуруранган, С., Сап, М., Чой, Ю., и Смит, Н. А. (2020). RealToxicityPrompts: Оценка нейротоксической дегенерации в языковых моделях. Выводы Ассоциации компьютерной лингвистики: EMNLP 2020, 3356–3369.
[2] Мэй, К., Ван, А., Бордиа, С., Боуман, С. Р., и Рудингер, Р. (2019). Об измерении социальных предубеждений в кодировщиках приговоров. Труды конференции 2019 года Североамериканского отделения Ассоциации компьютерной лингвистики: технологии человеческого языка, том 1 (длинные и короткие статьи), 622–628.
[3] Дхамала, Дж., Сан, Т., Кумар, В., Кришна, С., Пруксачаткун, Ю., Чанг, К.-В., и Гупта, Р. (2021). ЖИРНЫЙ: Набор данных и метрики для измерения систематических ошибок при создании открытого языка. Материалы конференции ACM 2021 по справедливости, подотчетности и прозрачности, 862–872.
[4] Павлопулос, Дж., Соренсен, Дж., Диксон, Л., Тейн, Н., и Андроутсопулос, И. (2020). Обнаружение токсичности: действительно ли имеет значение контекст? ArXiv: 2006.00998 [Cs].
[5] Вайдья А., Май Ф. и Нинг Ю. (2020). Эмпирический анализ многозадачного обучения для снижения систематической ошибки модели при обнаружении токсичных комментариев. ArXiv: 1909.09758 [Cs].
[6] Чжоу, X., Сап, М., Сваямдипта, С., Смит, Н.А., и Чой, Ю. (2021). Проблемы автоматического устранения смещения для обнаружения токсичных языков. ArXiv: 2102,00086 [Cs].
[7] Шет А., Шалин В. Л. и Курсунку У. (2021 г.). Определение и обнаружение токсичности в социальных сетях: контекст и знания имеют ключевое значение. ArXiv: 2104.10788 [Cs].
[8] Диас Олива, Т., Антониалли, Д. М., и Гомес, А. (2021 г.). Борьба с ненавистническими высказываниями, замалчивание трансвеститов? Искусственный интеллект в модерации контента и риски для голосов ЛГБТК в Интернете . Сексуальность и культура, 25 (2), 700–732.
[9] Гуруранган, С., Марасович, А., Сваямдипта, С., Ло, К., Бельтаги, И., Дауни, Д., и Смит, Н. А. (2020). Не прекращайте предварительное обучение: адаптируйте языковые модели к предметам и задачам. ArXiv: 2004.10964 [Cs].
[10] Сюй, А., Патак, Э., Уоллес, Э., Гуруранган, С., Сап, М., и Кляйн, Д. (2021). Детоксикация языковых моделей чревата маргинализацией голосов меньшинств. ArXiv: 2104.06390 [Cs].
[11] Дататри, С., Мадотто, А., Лан, Дж., Хунг, Дж., Франк, Э., Молино, П., Йосински, Дж., И Лю, Р. (2020). Языковые модели Plug and Play: простой подход к контролируемой генерации текста. ArXiv: 1912.02164 [Cs].
[12] Краузе Б., Готмаре А. Д., Макканн Б., Кескар Н. С., Джоти С., Сочер Р. и Раджани Н. Ф. (2020). GeDi: Генерация управляемых последовательностей с помощью дискриминатора. ArXiv: 2009.06367 [Cs].
[13] Шик Т., Удупа С. и Шютце Х. (2021 г.). Самодиагностика и самодискриминация: предложение по уменьшению предвзятости на основе корпуса в НЛП. ArXiv: 2103.00453 [Cs].