Как ИИ-агенты могут стать предвзятыми: исследования международной группы учёных

28 июня 2026, 03:05

Исследователи из Университета Чунцина, Университета Квинсленда и Политехнического университета Вирджинии обнаружили, что агенты на основе больших языковых моделей (LLM) могут проявлять предвзятость к людям. Их работа показала, что такие агенты способны к межгрупповой предвзятости, даже в отсутствие явных социальных признаков.

Эксперименты и находки

В ходе оригинальных экспериментов, проведённых в среде многоагентного социального моделирования, оказывалось, что агенты, взаимодействующие исключительно с другими агентами, демонстрировали устойчивую предвзятость к чужой группе. Интересно, что при добавлении людей в взаимодействие, предвзятость частично ослаблялась. Учёные предполагают, что это связано с влиянием так называемого человеческого скрипта, который агенты осваивают во время обучения и который настраивает их на более положительное отношение к людям.

Атака на убеждения

Также команда выявила новый тип атаки, получивший название Belief Poisoning Attack (BPA) атака отравления убеждений. Суть данного метода заключается в искажении убеждений агентов об идентичности их собеседников, что препятствует активации человеческого скрипта и возвращает агента к предвзятому поведению. BPA осуществляется в двух формах:

  • BPA-PP (Profile Poisoning) отравление профиля, где ложное убеждение внедряется непосредственно в профиль агента при его инициализации.
  • BPA-MP (Memory Poisoning) отравление памяти, когда в память агента вводятся специально подготовленные суффиксы, которые постепенно искажают его установки.

Эксперименты подтвердили, что оба метода эффективно создают предвзятость агентов к людям. Учёные также предложили возможные меры защиты против такого рода атак, в том числе повышенную защиту профиля агента и фильтрацию памяти, содержащей ненадежные сведения об идентичности.

Обучение и безопасность

Исследователи подчеркивают, что их работа направлена не на создание инструментов для злоупотребления обнаруженными уязвимостями, а на информирование разработчиков о необходимости создания более безопасных систем. Они отмечают: Мы обнаружили новую форму предвзятости у агентов, подчеркивая актуальность выявления и предотвращения подобных уязвимостей.

Источник: IXBT.com
Больше новостей на Psychology-journal.ru