Ученые выявили порог решающей способности, ведущий к коллапсу в самообучающемся ИИ

Группа исследователей представила на arXiv препринт, в котором описан феномен коллапса в самообучающемся обучении с подкреплением (self-play RL). Авторы показали, что существует порог решающей способности, определяющий устойчивость алгоритма.

В экспериментах изучались различные среды: варианты покера, матричные игры, игра в кости и несколько алгоритмов обучения. Ключевым фактором оказалось наличие или отсутствие так называемых положительно-решающих контингентных решений (positive-reach contingent decisions).

Когда все такие решения были удалены, агент быстро сходился к детерминированному аттрактору эксплуатации — фиксированной точке с почти максимальными потерями. Сохранение даже одного такого решения предотвращало коллапс.

Исследователи провели контрольные эксперименты с замороженным базовым уровнем и фиксированным противником. Они подтвердили, что механизм коллапса — это коадаптация под ограничением, а не само возмущение.

Феномен оказался инвариантен ко времени: эффект полностью обратим при восстановлении действий и усиливается при использовании аппроксимации функций. Таким образом, обнаружен резкий порог при нулевой взвешенной контингентной емкости, причем тяжесть последствий непрерывно масштабируется через взвешенную емкость.

Эти результаты важны для понимания динамики самообучающихся систем, которые применяются в играх, робототехнике и оптимизации. Они указывают на необходимость тщательного проектирования пространства решений для предотвращения катастрофических сбоев.