Нейросети с изменяющейся динамикой превзошли классические модели в очистке речи и анализе переключающихся систем

Новый класс нейросетей, основанных на моделях пространства состояний (state-space models, SSM) с изменяющимися во времени параметрами, предложен исследователями в работе, опубликованной на arXiv. Эти модели предназначены для обработки последовательностей с переключающейся динамикой — например, аудиосигналов, в которых тип шума меняется со временем.

Ключевая идея — использование словаря базисных функций, каждая из которых эволюционирует по-своему. Это позволяет нейросети адаптироваться к изменениям в данных без необходимости переобучать всю модель. В отличие от классических SSM, параметры здесь не фиксированы, а меняются в зависимости от времени.

Эксперименты проводились на синтетических данных от переключающихся систем и на реальной задаче подавления шума в речи. В последнем случае аудио было смешано с шумом, который сам имеет переключающуюся динамику. Результаты показали: предложенная модель consistently outperforms time-invariant counterparts при сохранении сопоставимой вычислительной сложности.

Исследователи также проанализировали, какие аспекты временной изменчивости данных необходимо захватывать модели и как лучше распределять дополнительную гибкость, которую дают базисные функции. Выяснилось, что увеличение размера стационарной модели может частично компенсировать отсутствие временной изменчивости, но не полностью.

Работа имеет прикладное значение для обработки сигналов, систем идентификации и задач, где данные нестационарны. В частности, в сфере улучшения речи и голосовых ассистентов такие модели могут обеспечить более качественное шумоподавление. Авторы отмечают, что предложенный подход открывает путь к созданию более адаптивных нейросетей для работы с нестационарными данными.