Исследователи из международной группы представили метод CAPS (Cascaded Adaptive Pairwise Selection), который позволяет существенно снизить вычислительные затраты при параллельном рассуждении в больших языковых моделях (LLM). Препринт работы опубликован на arXiv.
Параллельное рассуждение — одна из эффективных стратегий масштабирования на этапе тестирования: генератор создает множество решений, а агрегатор выбирает лучшее. Наилучшие результаты показывает попарная самоверификация, но она требует высоких затрат: каждое сравнение считывает два полных решения, и существующие методы выполняют десятки таких сравнений на задачу, даже если сравнение не несет новой информации.
CAPS решает эту проблему за счет каскадной адаптивной схемы, распределяющей вычислительные ресурсы неоднородно по двум осям: оси полноты свидетельств (сколько текста решения видит верификатор) и оси распределения (как сравнения распределяются по пулу кандидатов). Метод включает четырехэтапный каскад с опциональной спасательной подпрограммой.
По данным авторов, CAPS обеспечивает замкнутую формулу стоимости токенов верификатора, в которой предельные затраты на одного кандидата сокращаются примерно вдвое по сравнению с равномерным полным чтением. При этом на 14 из 20 тестовых наборов CAPS превосходит ведущий метод попарной верификации, используя всего 25,4% его бюджета токенов на задачах по программированию.
Эксперименты проводились на четырех моделях с самоверификацией: Qwen3-14B, GPT-OSS-20B, Qwen3-4B-Instruct и Qwen3-4B-Thinking. Тестирование охватило пять бенчмарков, включая задачи по коду (LiveCodeBench v5/v6, CodeContests) и математике (AIME 2025, HMMT 2025). Во всех 20 наборах CAPS превзошел поточечную самоверификацию.
Метод также предлагает интерпретируемую диагностику: зависимость точности верификатора от частичного и полного чтения позволяет заранее оценить, подходит ли каскад для конкретной задачи. Это дает практический инструмент для развертывания перед использованием.
Разработка CAPS важна для снижения стоимости инференса LLM без потери качества ответов, что критично для масштабного применения в промышленности и научных исследованиях.