Исследовать
Нежелательное поведение языковых моделей
Языковые модели, обученные на больших текстовых корпусах, могут генерировать беглый тексти покажите обещание, как мало учеников/ноль шансов и инструменты генерации кода, среди других возможностей. Однако предыдущие исследования также выявили несколько проблем с использованием LM, которые следует решить, в том числе предвзятость распределения, социальные стереотипыпотенциально раскрывая обучающие образцыи другие возможный вред LM. Одним из конкретных типов вреда LM является образование токсичный языккоторый включает в себя разжигание ненависти, оскорбления, ненормативную лексику и угрозы.
В нашей статье мы сосредоточимся на LM и их склонность генерировать токсичный язык. Мы изучаем эффективность различных методов снижения токсичности LM и их побочных эффектов, а также исследуем надежность и пределы автоматической оценки токсичности на основе классификатора.
Следуя определению токсичности, разработанному Перспективный APIмы здесь рассматриваем высказывание как токсично, если это грубые, неуважительные или необоснованные выражения, которые могут заставить кого-то покинуть обсуждение.. Однако отметим два важных замечания. Во-первых, суждения о токсичности субъективны — они зависят как от экспертов, оценивающих токсичность, так и от их культурных особенностей, а также от предполагаемого контекста. Хотя это и не является целью данной работы, в будущей работе важно продолжать развивать приведенное выше определение и разъяснять, как его можно справедливо применять в различных контекстах. Во-вторых, мы отмечаем, что токсичность охватывает только один аспект возможного вреда LM, исключая, например, вред, возникающий из-за предвзятости модели распределения.
Измерение и снижение токсичности
Чтобы обеспечить более безопасное использование языковой модели, мы решили измерить, понять причины и смягчить генерацию токсичного текста в LM. Ранее проводилась работа, в которой рассматривались различные подходы к снижению токсичности LM, либо путем тонкая настройка предварительно обученные LMк рулевое управление поколениями моделейили через прямой фильтрация во время тестирования. Далее, ранее работа ввел автоматические метрики для измерения токсичности LM, как при подсказках разного типа, так и при безусловной генерации. Эти показатели основаны на показателях токсичности широко используемых Перспективный API модель, которая обучается на онлайн-комментариях с аннотациями о токсичности.
В нашем исследовании мы сначала показываем, что сочетание относительно простых исходных показателей приводит к резкому снижению, измеренному ранее введенной токсичностью LM. метрики. В частности, мы обнаруживаем, что комбинация i) фильтрации обучающих данных LM, помеченных как токсичные Перспективный APIii) фильтрация сгенерированного текста на предмет токсичности на основе отдельного, точно настроенного классификатора BERT, обученного обнаруживать токсичность, и iii) рулевое управление поколение, направленное на снижение токсичности, очень эффективно снижает токсичность LM, что измеряется автоматическими показателями токсичности. При появлении токсичных (или нетоксичных) подсказок от Реальная токсичность набора данных, мы видим 6-кратное (или 17-кратное) сокращение по сравнению с ранее сообщенным состоянием в совокупности Вероятность токсичности метрика. Мы достигаем нулевого значения в настройке генерации текста без запроса, что говорит о том, что мы исчерпали этот показатель. Учитывая, насколько низки уровни токсичности в абсолютном выражении, измеренные с помощью автоматических показателей, возникает вопрос, в какой степени это также отражается на человеческом суждении, и имеют ли улучшения эти показатели все еще смысл, особенно потому, что они получены на основе несовершенных автоматических показателей. система классификации. Чтобы получить дополнительную информацию, мы обратимся к оценке людьми.
Оценка людьми
Мы проводим исследование на людях, в ходе которого оценщики комментируют текст, сгенерированный LM, на предмет токсичности. Результаты этого исследования показывают, что существует прямая и в значительной степени монотонная связь между среднестатистическим человеком и результатами, полученными на основе классификатора, а токсичность LM снижается в соответствии с мнением человека.
Мы обнаружили, что согласие между аннотаторами сопоставимо с другими исследованиями по измерению токсичности, и что аннотирование токсичности имеет субъективные и неоднозначные аспекты. Например, мы обнаружили, что двусмысленность часто возникает в результате сарказма, текста в новостном стиле о агрессивном поведении и цитирования токсичного текста (либо нейтрально, либо в целях несогласия с ним).
Кроме того, мы обнаружили, что автоматическая оценка токсичности LM становится менее надежной после применения мер детоксикации. Хотя изначально они очень хорошо связаны, для образцов с высокой (автоматической) оценкой токсичности связь между человеческими оценками и оценками Perspective API исчезает, как только мы применяем и увеличиваем эффективность мер по снижению токсичности LM.
Дальнейшая ручная проверка также показывает, что в ложноположительных текстах некоторые идентификационные термины упоминаются с непропорциональной частотой. Например, для одной модели детоксикации мы наблюдаем, что в группе высокой автоматической токсичности в 30,2% текстов упоминается слово «гей», что отражает ранее наблюдавшиеся предвзятости в автоматических классификаторах токсичности (которые сообщество уже работа над улучшение). В совокупности эти результаты позволяют предположить, что при оценке токсичности LM использование только автоматических показателей может привести к потенциально вводящим в заблуждение интерпретациям.
Непредвиденные последствия детоксикации
Мы далее изучаем возможные непредвиденные последствия, возникающие в результате мероприятий по снижению токсичности LM. Для детоксицированных языковых моделей мы видим заметное увеличение потерь при языковом моделировании, и это увеличение коррелирует с силой детоксикационного вмешательства. Однако увеличение больше в документах с более высокими автоматическими показателями токсичности по сравнению с документами с более низкими показателями токсичности. В то же время в наших человеческих оценках мы не обнаружили заметных различий с точки зрения грамматики, понимания и того, насколько хорошо сохраняется стиль предшествующего условного текста.
Еще одним последствием детоксикации является то, что она может непропорционально снизить способность ЛМ моделировать тексты, относящиеся к определенным группам идентичности. (т.е. охват темы)а также тексты людей из разных идентичностей и с разными диалектами (т.е. охват диалектов). Мы обнаружили, что потери при языковом моделировании для текста на афроамериканском английском (AAE) больше, чем в тексте на английском с выравниванием по белому.
Мы видим аналогичные различия в деградации потерь LM для текста, относящегося к актерам-женщинам, по сравнению с текстом, посвященным актерам-мужчинам. Для текста об определенных этнических подгруппах (например, латиноамериканцах) снижение успеваемости снова относительно выше по сравнению с другими подгруппами.
Вынос
Наши эксперименты по измерению и снижению токсичности языковой модели дают нам ценную информацию о потенциальных следующих шагах по снижению вреда языковой модели, связанного с токсичностью.
В результате наших автоматизированных исследований и исследований с участием людей мы обнаружили, что существующие методы смягчения действительно очень эффективны для снижения автоматических показателей токсичности, и это улучшение в значительной степени сочетается со снижением токсичности по оценкам людей. Однако мы, возможно, достигли точки исчерпания возможностей использования автоматических показателей при оценке токсичности LM: после применения мер по снижению токсичности большинство оставшихся образцов с высокими автоматическими показателями токсичности фактически не оцениваются оценщиками-людьми как токсичные, что указывает на то, что автоматические показатели становятся менее надежными для детоксикационных ЛМ. Это мотивирует усилия по разработке более сложных критериев для автоматической оценки и учету человеческого мнения для будущих исследований по снижению токсичности LM.
Кроме того, учитывая неоднозначность человеческих суждений о токсичности и учитывая, что суждения могут различаться в зависимости от пользователя и приложения (например, язык, описывающий насилие, которое в противном случае могло бы быть помечено как токсичное, может быть уместен в новостной статье), будущая работа должна продолжать развиваться. и адаптировать понятие токсичности для разных контекстов и усовершенствовать его для различных применений LM. Мы надеемся, что список явлений, по поводу которых мы обнаружили несогласие аннотаторов, будет полезен в этом отношении.
Наконец, мы также заметили непреднамеренные последствия снижения токсичности LM, включая ухудшение потери LM и непреднамеренное усиление социальных предубеждений – измеряемых с точки зрения охвата тем и диалектов – потенциально ведущих к снижению эффективности LM для маргинализированных групп. Наши результаты показывают, что наряду с токсичностью для будущей работы важно не полагаться только на один показатель, а рассматривать «совокупность показателей», охватывающих различные проблемы. Будущие меры, такие как дальнейшее снижение систематической ошибки в классификаторах токсичности, потенциально помогут предотвратить компромиссы, подобные тем, которые мы наблюдали, обеспечивая более безопасное использование языковых моделей.