Новый метод LaMR сокращает траты токенов AI-агентами на 31% без потери качества

Исследователи представили новый метод контекстного сжатия LaMR (Latent Multi-Rubric), предназначенный для агентов на базе больших языковых моделей, которые пишут программный код. Как показано в статье на arXiv, типичные ИИ-агенты тратят до 80% токенов на чтение файлов репозитория, но большая часть этих данных оказывается нерелевантной задаче.

Существующие подходы используют однокритериальные модели, которые не различают разные типы связанности кода: семантические блоки и вспомогательные строки. LaMR предлагает двухмерную модель, где семантическая значимость и структурная поддержка обрабатываются отдельными условными случайными полями (CRF) с собственными динамиками переходов.

Для обучения без дополнительной разметки авторы применили анализ синтаксических деревьев (AST) для генерации меток по двум рубрикам параллельно с шумоподавлением базовых бинарных меток. Смесь экспертов (Mixture-of-Experts) динамически взвешивает оценки двух каналов в зависимости от запроса, а итоговое решение о сохранении или удалении контекста принимает финальный слой CRF.

Тесты на четырёх бенчмарках — SWE-Bench Verified, SWE-QA, LCC и LongCodeQA — показали, что LaMR выигрывает 12 из 16 прямых сравнений в многопоточных сценариях. На задачах с одним вызовом точность Exact Match повышается до +3,5 процента, а экономия токенов достигает 31% на многопоточных заданиях без ухудшения, а зачастую и с улучшением результатов.

По словам исследователей, удаление отвлекающего шума из контекста не только снижает затраты, но и повышает качество генерации кода, поскольку модель получает более сфокусированные данные. При этом снижение точности в отдельных случаях остаётся незначительным. Работа LaMR особенно актуальна для длинных сессий взаимодействия, где каждый токен имеет значение.

Новый подход может найти применение в инструментах для разработки, где ИИ-помощники работают с большими кодовыми базами. Возможность сокращать потребление токенов без потери качества снижает операционные затраты и ускоряет работу агентов, что делает его перспективным для коммерческого использования.