Microsoft представляет нейросеть для синтеза голоса

Корпорация Microsoft обновила свою систему синтеза речи Azure AI Speech Personal Voice, представив новую модель DragonV2.1Neural. Эта технология относится к категории zero-shot, что позволяет создавать голосовые профили на основе минимальных исходных данных. Компания заявляет о повышении естественности звучания, улучшенной артикуляции и расширенных возможностях управления параметрами голоса.

Модель способна генерировать речь более чем на 100 языках, используя образец голоса длиной всего несколько секунд. Предыдущая версия DragonV1 имела проблемы с правильным произношением имен собственных, но в обновленной системе этот недостаток устранен. Технология подходит для настройки голосов чат-ботов, дубляжа видео с сохранением тембра актера и других задач, связанных с синтезом речи.

По данным Microsoft, DragonV2.1 демонстрирует более стабильную просодию и сокращает количество ошибок распознавания на 12,8% по сравнению с предшественником. Для точной настройки произношения и акцента применяются SSML-теги и пользовательские фонемные словари. В комплект входят предустановленные голосовые профили, включая варианты Andrew, Ava и Brian, предназначенные для тестирования.

Развитие технологии синтеза голоса повышает риски распространения дипфейков. Microsoft вводит ограничения: пользователи должны подтверждать согласие носителя голоса, маркировать синтетический контент и избегать злоупотреблений, связанных с имитацией реальных людей. Для идентификации искусственной речи применяется цифровой водяной знак с точностью детекции 99,7% даже после редактирования аудио.

Доступ к DragonV2.1Neural открыт в тестовом режиме через платформу Speech Studio. Коммерческое использование требует отдельного запроса на подключение API. Аналитики отмечают, что подобные системы уже разрабатываются компаниями ElevenLabs и Google, однако Microsoft первой внедрила комплексную систему защиты от злоупотреблений.