Языковые модели искусственного интеллекта работают, предсказывая следующее вероятное слово в предложении, генерируя по одному слову за раз на основе этих прогнозов. Алгоритмы нанесения водяных знаков на текст делят словарь языковой модели на слова в «зеленом списке» и «красном списке», а затем заставляют модель ИИ выбирать слова из зеленого списка. Чем больше слов в предложении из зеленого списка, тем больше вероятность того, что текст был сгенерирован компьютером. Люди склонны писать предложения, включающие более случайное сочетание слов.
Исследователи подделали пять различных водяных знаков, которые работают таким образом. По словам Стааба, им удалось провести реверс-инжиниринг водяных знаков, используя API для доступа к модели искусственного интеллекта с нанесенным водяным знаком и многократным его запросом. Ответы позволяют злоумышленнику «украсть» водяной знак, построив приблизительную модель правил использования водяных знаков. Они делают это, анализируя результаты ИИ и сравнивая их с обычным текстом.
Как только у них появится приблизительное представление о том, какими могут быть слова с водяными знаками, это позволит исследователям выполнить два типа атак. Первый из них, называемый спуфинг-атакой, позволяет злоумышленникам использовать информацию, полученную ими в результате кражи водяного знака, для создания текста, который можно выдать за водяной знак. Вторая атака позволяет хакерам удалить водяной знак сгенерированного ИИ текста, чтобы его можно было выдать за написанный человеком.
У команды был примерно 80% успеха в подделке водяных знаков и 85% успеха в удалении водяного знака из текста, сгенерированного ИИ.
Исследователи, не связанные с командой ETH Zürich, такие как Сохейл Фейзи, доцент и директор Лаборатории надежного искусственного интеллекта в Университете Мэриленда, также найдены водяные знаки быть ненадежным и уязвимым для спуфинговых атак.
Выводы ETH Zürich подтверждают, что проблемы с водяными знаками сохраняются и распространяются на самые продвинутые типы чат-ботов и большие языковые модели, используемые сегодня, говорит Фейзи.
Исследование «подчеркивает важность проявления осторожности при широкомасштабном развертывании таких механизмов обнаружения», — говорит он.
Несмотря на полученные результаты, водяные знаки остаются наиболее многообещающим способом обнаружения контента, созданного искусственным интеллектом, говорит Никола Йованович, аспирант ETH Zürich, который работал над исследованием.
Но необходимы дополнительные исследования, чтобы подготовить водяные знаки к широкомасштабному использованию, добавляет он. До тех пор нам следует оправдать наши ожидания относительно надежности и полезности этих инструментов. «Если это лучше, чем ничего, это все равно полезно», — говорит он.