Новый метод IBPO ускоряет обучение LLM математике и коду

Группа исследователей представила новый подход к обучению больших языковых моделей (LLM) многошаговым рассуждениям — Implicit Behavior Policy Optimization (IBPO). Работа опубликована на arXiv и описывает метод, который решает проблему разреженных финальных наград, типичную для reinforcement learning в этой области.

В современных LLM обучение многошаговым задачам часто страдает из-за того, что финальная обратная связь равномерно распределяется на все промежуточные шаги. Это приводит к высокой дисперсии градиентов, нестабильному обучению и множеству неэффективных обновлений. Предложенный фреймворк вводит контрафактные сравнения: он генерирует несколько траекторий рассуждения для одного входа, а различия между ними использует как неявную оценку альтернативных решений.

На основе этого строится implicit process-level advantage estimator, который преобразует разреженные конечные награды в чувствительные к шагам сигналы обучения. Таким образом, модель получает более точную информацию о том, какие именно шаги в рассуждении были полезны или вредны.

Метод IBPO был протестирован на бенчмарках математических рассуждений и задач по программированию. Результаты показали значительное улучшение стабильности обучения и повышение верхней границы производительности по сравнению с существующими методами.

Авторы считают, что предложенный подход открывает перспективное направление для раскрытия полного потенциала больших языковых моделей в задачах, требующих сложных многошаговых рассуждений.