Belief Engine: ИИ-агенты с прозрачным механизмом смены убеждений

В новой научной работе на arXiv (2605.15343) описана система Belief Engine (BE), которая добавляет ИИ-агентам возможность объяснять, почему они меняют свою точку зрения. Разработчики называют её «аудитируемым слоем обновления убеждений» — она превращает неявное изменение позиции в отслеживаемый процесс.

Проблема в том, что при многошаговых обсуждениях, переговорах или дебатах модели-агенты часто меняют мнение, но причины остаются скрытыми: это может быть как учёт новых аргументов, так и эффект «якорения», дрейф роли или случайные изменения в контексте. Belief Engine решает эту задачу, явно моделируя убеждение как вероятностное состояние, основанное на свидетельствах.

Технически BE извлекает аргументы в структурированную память и обновляет позицию с помощью лог-отношения (log-odds rule), управляемого двумя параметрами: усвоением свидетельств (u) и привязкой к предыдущей позиции (a). Это позволяет настраивать «открытость» агента к новым данным и «консерватизм».

Эксперименты на нескольких базовых LLM показали, что эти параметры надёжно предсказывают динамику убеждений. Особенно ярко механизм проявился на датасете DEBATE — записи человеческих дебатов с указанием мнения до и после. Belief Engine лучше всего восстанавливал позицию участников, чьё итоговое мнение совпадало с извлечёнными аргументами. В случаях, когда участники оставались при своём мнении или шли против аргументов, срабатывал механизм «якорения» или внешние факторы.

Таким образом, Belief Engine предоставляет исследователям настраиваемую инфраструктуру для изучения аргументированных обсуждений. Открытость, приверженность, конвергенция и разногласия теперь могут быть напрямую связаны с явными предположениями об обновлении убеждений, а не со скрытыми эффектами промптов.

Разработка может найти применение в системах, требующих прозрачности принятия решений: от помощников для анализа документов до симуляций общественного обсуждения.