Новый метод LEAP ускоряет диффузионные языковые модели на 30% без дообучения

Диффузионные языковые модели (dLLM) привлекают внимание исследователей благодаря возможности параллельной обработки данных. Однако существующие методы требуют высоких порогов уверенности для сохранения точности, что ограничивает масштабируемость параллелизма. Группа учёных провела статистический анализ на уровне отдельных токенов и выяснила, что значительная их часть сходится к верным предсказаниям задолго до достижения стандартных порогов.

В ответ на это команда разработала LEAP — метод обнаружения токенов, сходящихся на ранних стадиях. LEAP не требует дообучения модели и использует контекст будущих токенов и наложение нескольких последовательностей для выявления таких токенов. Проверка показала, что ранняя сходимость токенов коррелирует с правильностью предсказания, что позволяет безопасно завершать их декодирование досрочно.

Тестирование на разнообразных наборах данных показало, что LEAP снижает среднее число шагов шумоподавления примерно на 30% по сравнению с декодированием на основе порога уверенности. Например, на наборе GSM8K комбинация LEAP с методом dParallel достигла производительности 7,2 токена за шаг при сохранении точности модели.

Авторы подчёркивают, что LEAP — это тренировочно-независимое решение, которое можно интегрировать в существующие архитектуры без изменений. Метод открывает новый подход к параллельному декодированию, не опирающийся на высокие пороги уверенности. Работа опубликована на платформе arXiv и доступна для ознакомления.

Ускорение диффузионных языковых моделей особенно актуально для задач генерации текста и диалоговых систем, где важна низкая задержка. Дальнейшие исследования могут быть направлены на адаптацию LEAP для других типов моделей и задач.