Большие языковые модели (LLM) всё чаще применяются в системах, взаимодействующих с самыми разными людьми – от нетерпеливых до неохотно делящихся информацией. Однако сбор реальных данных о таких взаимодействиях в масштабе остаётся дорогим, поэтому для тестирования обычно используют симуляторы пользователей на основе LLM. Проблема в том, что эти симуляторы наследуют поведение базовой модели: они слишком кооперативны и однородны.
Чтобы преодолеть этот разрыв, группа исследователей представила Persona Policies (PPol) – управляющий слой, который вносит реалистичную вариативность в поведение симуляторов, не меняя исходные задачи. Вместо ручного создания персонажей авторы превратили генерацию личностей в эволюционный поиск на основе LLM. Программа на Python оптимизируется так, чтобы создавать разнообразные сценарии ролевого поведения, сохраняя при этом цели задачи.
Кандидаты-генераторы оцениваются по многокритериальной метрике, объединяющей человекоподобие и широту покрытия поведенческих паттернов. После оптимизации генератор выдаёт множество похожих на людей личностей для любой задачи в данной предметной области.
В экспериментах на наборе tau^2-bench (домены розничной торговли и авиакомпаний) эволюционные программы PPol показали абсолютный прирост метрики пригодности на 33–62% по сравнению с базовым симулятором. В слепой оценке аннотаторы признали поведение пользователей, управляемых PPol, человеческим в 80,4% случаев – это почти вдвое чаще, чем для базового симулятора, и близко к показателям реальных записей.
Обучение агентов с использованием PPol сделало их устойчивее к сложным, выходящим за пределы обычного распределения поведениям: успешность выполнения задач выросла на 17% относительно тренировки только на существующих симулированных взаимодействиях. Таким образом, PPol предлагает новый подход к усилению симуляционного тестирования и обучения без изменения самих задач или вознаграждений.