Группа исследователей предложила OLIVIA (Online Learning via Inference-time Action Adaptation) — фреймворк для адаптации действий LLM-агентов во время выполнения. Работа опубликована на arXiv.
OLIVIA предназначена для ReAct-агентов, которые чередуют рассуждение, выбор действий и наблюдение. В развёрнутых сценариях мелкие ошибки в выборе действий могут накапливаться, приводя к лишним вызовам инструментов, задержкам и снижению надёжности.
Существующие методы адаптации во время инференса для LLM-агентов в основном полагаются на промпты или поиск, что влияет на поведение косвенно через контекст. Для ReAct-агентов такие подходы не предоставляют явного слоя принятия решений, способного оценивать кандидатов, представлять неопределённость или обновляться онлайн на основе обратной связи.
OLIVIA моделирует финальный слой выбора действий LLM как контекстуальный линейный бандит над кандидатами, используя замороженные скрытые состояния в качестве контекста. Это позволяет адаптировать поведение непосредственно на интерфейсе выбора действий, сохраняя базовый процесс рассуждений и предоставляя явные оценки неопределённости.
Фреймворк использует исследование на основе верхней доверительной границы, что позволяет эффективно улучшать политику с минимальными вычислительными затратами. OLIVIA была протестирована на четырёх бенчмарках и показала последовательное улучшение производительности по сравнению со статическим ReAct и промпт-методами.
Результаты указывают, что явные онлайн-слои принятия решений могут стать эффективной альтернативой чисто промптовой адаптации для LLM-агентов в процессе развёртывания. Разработка может повысить надёжность и эффективность агентов в практических приложениях.