30 марта французская компания Mistral AI выпустила открытую модель синтеза речи Voxtral TTS — и сделала это не для серверов, а для носимых устройств. Модель настолько компактна, что работает прямо на смартфонах и умных часах, без отправки данных в облако. Задержка до первого звука — 90 миллисекунд, то есть фактически реальное время. Поддерживаются девять языков: английский, французский, немецкий, испанский, португальский, итальянский, нидерландский, хинди и арабский.

Стратегически это прямой вызов ElevenLabs и голосовым сервисам OpenAI, которые держат всю обработку в облаке. Mistral делает ставку на противоположное: никаких API-вызовов, никаких задержек, никаких данных за пределами устройства. Для разработчиков это означает безлимитный инференс без поминутной тарификации. Модель уже доступна на Hugging Face под открытой лицензией.