Как ИИ-агенты могут стать предвзятыми: исследования международной группы учёных

28 июня 2026, 03:05

Исследователи из Университета Чунцина, Университета Квинсленда и Политехнического университета Вирджинии обнаружили, что агенты на основе больших языковых моделей (LLM) могут проявлять предвзятость к людям. Их работа показала, что такие агенты способны к межгрупповой предвзятости, даже в отсутствие явных социальных признаков.

Эксперименты и находки

В ходе оригинальных экспериментов, проведённых в среде многоагентного социального моделирования, оказывалось, что агенты, взаимодействующие исключительно с другими агентами, демонстрировали устойчивую предвзятость к чужой группе. Интересно, что при добавлении людей в взаимодействие, предвзятость частично ослаблялась. Учёные предполагают, что это связано с влиянием так называемого человеческого скрипта, который агенты осваивают во время обучения и который настраивает их на более положительное отношение к людям.

Атака на убеждения

Также команда выявила новый тип атаки, получивший название Belief Poisoning Attack (BPA) атака отравления убеждений. Суть данного метода заключается в искажении убеждений агентов об идентичности их собеседников, что препятствует активации человеческого скрипта и возвращает агента к предвзятому поведению. BPA осуществляется в двух формах:

BPA-PP (Profile Poisoning) отравление профиля, где ложное убеждение внедряется непосредственно в профиль агента при его инициализации.
BPA-MP (Memory Poisoning) отравление памяти, когда в память агента вводятся специально подготовленные суффиксы, которые постепенно искажают его установки.

Эксперименты подтвердили, что оба метода эффективно создают предвзятость агентов к людям. Учёные также предложили возможные меры защиты против такого рода атак, в том числе повышенную защиту профиля агента и фильтрацию памяти, содержащей ненадежные сведения об идентичности.

Обучение и безопасность

Исследователи подчеркивают, что их работа направлена не на создание инструментов для злоупотребления обнаруженными уязвимостями, а на информирование разработчиков о необходимости создания более безопасных систем. Они отмечают: Мы обнаружили новую форму предвзятости у агентов, подчеркивая актуальность выявления и предотвращения подобных уязвимостей.

Источник: IXBT.com

Это интересно

Воздушные и легкие кексы с сыром: новые горизонты здоровья и вкуса

Как защитить растения от тли в начале лета: подробные советы и рекомендации

Как приготовить идеальные домашние пельмени: секреты и советы

10 минут на полезный салат: просто, быстро и вкусно!

Как очистить трубы без химии: эффективный домашний способ

Эффективная дрожжевая подкормка для огурцов: как решить проблемы роста

От чувствительности к здоровью: как восстановить эмаль зубов в домашних условиях

Янтарное наслаждение: как создать прозрачное яблочное варенье в домашних условиях

Праздничные гастрономические приключения Москвы

Летний вкус: освежающий холодник на кефире как идеальное блюдо теплых дней

Больше новостей на Psychology-journal.ru