Как ИИ-агенты могут стать предвзятыми: исследования международной группы учёных
Исследователи из Университета Чунцина, Университета Квинсленда и Политехнического университета Вирджинии обнаружили, что агенты на основе больших языковых моделей (LLM) могут проявлять предвзятость к людям. Их работа показала, что такие агенты способны к межгрупповой предвзятости, даже в отсутствие явных социальных признаков.
Эксперименты и находки
В ходе оригинальных экспериментов, проведённых в среде многоагентного социального моделирования, оказывалось, что агенты, взаимодействующие исключительно с другими агентами, демонстрировали устойчивую предвзятость к чужой группе. Интересно, что при добавлении людей в взаимодействие, предвзятость частично ослаблялась. Учёные предполагают, что это связано с влиянием так называемого человеческого скрипта, который агенты осваивают во время обучения и который настраивает их на более положительное отношение к людям.
Атака на убеждения
Также команда выявила новый тип атаки, получивший название Belief Poisoning Attack (BPA) атака отравления убеждений. Суть данного метода заключается в искажении убеждений агентов об идентичности их собеседников, что препятствует активации человеческого скрипта и возвращает агента к предвзятому поведению. BPA осуществляется в двух формах:
- BPA-PP (Profile Poisoning) отравление профиля, где ложное убеждение внедряется непосредственно в профиль агента при его инициализации.
- BPA-MP (Memory Poisoning) отравление памяти, когда в память агента вводятся специально подготовленные суффиксы, которые постепенно искажают его установки.
Эксперименты подтвердили, что оба метода эффективно создают предвзятость агентов к людям. Учёные также предложили возможные меры защиты против такого рода атак, в том числе повышенную защиту профиля агента и фильтрацию памяти, содержащей ненадежные сведения об идентичности.
Обучение и безопасность
Исследователи подчеркивают, что их работа направлена не на создание инструментов для злоупотребления обнаруженными уязвимостями, а на информирование разработчиков о необходимости создания более безопасных систем. Они отмечают: Мы обнаружили новую форму предвзятости у агентов, подчеркивая актуальность выявления и предотвращения подобных уязвимостей.