OpenAIрасширила API новыми инструментами голосового ИИ, которые позволяют разработчикам создавать приложения для общения, расшифровки и перевода речи в реальном времени.
Компания представила модель GPT-Realtime-2 — систему для обработки и генерации речи на базе технологий GPT-5. По заявлению OpenAI, новая версия лучше справляется со сложными запросами пользователей и поддерживает более естественный диалог по сравнению с GPT-Realtime-1.5.
Вместе с ней в API появилась функция GPT-Realtime-Whisper для потоковой расшифровки речи в текст — распознавание происходит прямо во время разговора.
Также OpenAI запустила GPT-Realtime-Translate для синхронного перевода речи. Система поддерживает более 70 языков ввода и 13 языков вывода, сохраняя темп живого разговора.
В OpenAI отмечают, что новые инструменты можно использовать не только в службах поддержки, но и в образовании, медиа, на мероприятиях и платформах для создателей контента.
Компания также сообщила о встроенных механизмах защиты. Система сможет прерывать диалог при выявлении нарушений правил, чтобы снизить риски спама, мошенничества и других злоупотреблений.
GPT-Realtime-2 будет тарифицироваться по токенам, а Translate и Whisper — по минутам использования.