В Новосибирске создали первую в России нейросеть для генерации музыки

Новосибирские ученые создали нейросеть для генерации аудио

Фото: сгенерировано нейросетью

Специалисты Новосибирского государственного технического университета разработали первое в России программное обеспечение для генерации аудиоконтента с помощью нейросетей. Руководитель проекта Егор Антонянц сообщил, что система предназначена для автономного создания музыки, вокала и звуковых эффектов по текстовому описанию, причём без использования облачных сервисов.

Главная особенность разработки — полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Программа обеспечивает весь цикл производства: от текстового запроса до экспорта готового файла в форматах WAV, MP3 или FLAC. При этом она не требует мощного оборудования и запускается на обычном компьютере с видеокартой, у которой менее шести гигабайт памяти.

По словам Антонянца, модель была дообучена с помощью специальных адаптеров LoRA для трёх типов контента: инструментальной музыки, песен с вокалом и звуковых эффектов. Такой подход позволяет избежать смешения характеристик и добиться точного соответствия запросу. В отличие от большинства аналогов, ориентированных на английский язык, новосибирская разработка адаптирована для русскоязычных пользователей. Эффективность ПО подтверждена тестами: средняя субъективная оценка качества (MOS) составила 4,1 балла из 5, что сравнимо с результатами ведущих мировых платформ.

Технический процесс, как рассказал разработчик Артур Хусаинов, состоит из нескольких этапов. Сначала языковая модель формирует семантическую основу композиции, затем диффузионный трансформер выполняет акустический синтез, а модуль экспорта конвертирует результат в нужный формат. Встроенный графический интерфейс позволяет управлять проектами, сохранять настройки, прослушивать треки и экспортировать их без сторонних редакторов.

В будущем создатели планируют расширить функционал системы: добавить поддержку пространственного аудио для виртуальной реальности, интеграцию с MIDI-контроллерами для живого исполнения и адаптацию ПО для промышленных задач — от озвучивания видеоигр и фильмов до автоматизации подкастов, трансляций и рекламных роликов.

Данные о правообладателе фото и видеоматериалов взяты с сайта «BFM.RU Новосибирск», подробнее в Условиях использования