Российские ученые ускорили обучение ИИ с помощью моделирования человеческого взгляда

Научные сотрудники Исследовательского центра в сфере ИИ университета «Иннополис» представили новый способ повышения эффективности обучения с подкреплением на основе отзывов людей RLHF — ключевого метода для согласования больших языковых моделей с предпочтениями пользователей. Об этом CNews сообщили представители университета «Иннополис» . По словам ученых, основные проблемы современных методов RLHF — их высокая вычислительная стоимость и медленная сходимость из-за разреженности сигналов обратной связи: модель наград анализирует весь сгенерированный текст одной общей оценкой, не указывая,...