Together AI запустила платформу Voice Agent с задержкой менее 700 миллисекунд

Лоренс Дженгар

13 марта 2026 г., 01:57

Together AI дебютирует с единой инфраструктурой голосового агента с интеграциями Deepgram и Cartesia, ориентированной на корпоративные развертывания с задержкой от конца до конца менее 700 мс.

Together AI запустила единую платформу голосового агента, которая объединяет обработку речи в текст, языковые модели и преобразование текста в речь на одном инфраструктурном кластере. Стартап в области ИИ с капиталом в 3,3 миллиарда долларов утверждает, что такая настройка обеспечивает задержку от конца до конца менее 700 миллисекунд — достаточно быстро для естественного диалога.

Платформа интегрирована нативно с Deepgram для транскрипции и Cartesia для синтеза голоса, оба работают на совместных серверах Together, а не передают аудио между несколькими облачными провайдерами.

Почему важно совместное размещение для голоса

Большинство производственных систем голосовой связи объединяют отдельных поставщиков для каждого этапа обработки. Аудио сначала поступает одному провайдеру для транскрипции, затем передается другому для ответа с помощью LLM, и далее — третьему для синтеза речи. Каждая передача увеличивает сетевую задержку и создает точки отказа.

Преимущество Together: держать все в одном дата-центре. Компания сообщает о задержке менее 500 мс в оптимальных условиях, хотя максимальный показатель — 700 мс, что является их заявленным пределом для полной обработки.

«Голосовые агенты живут или умирают из-за задержки, и каждый переход между провайдерами — это место, где может нарушиться качество опыта», — сказал Абе Перселл, вице-президент по партнерствам Deepgram.

Гибкость моделей без «лоскутных» решений

Платформа поддерживает Whisper Large v3, Minimax Speech 2.6 Turbo, Rime Arcana и Kokoro наряду с полным каталогом LLM Together. Разработчики могут менять компоненты без необходимости пересобирать интеграции — это удобно для команд, тестирующих разные голосовые характеристики или точность транскрипции для конкретных задач.

Cartesia добавила свои модели TTS Sonic-3 и Sonic-2 в платформу. Deepgram предоставляет Nova-3, Nova-3 Multilingual для транскрипции, Flux для разговорного STT и Aura-2 для синтеза.

В отличие от непрозрачных систем преобразования речи в речь, модульный подход Together сохраняет доступ к промежуточным транскриптам и ответам. Команды могут инспектировать, изменять и маршрутизировать данные в процессе — это важно для многих корпоративных рабочих процессов по соблюдению требований.

Требования предприятий и использование в производстве

Платформа ориентирована на регулируемые отрасли с опциями нулевого хранения данных, сертификацией SOC 2 Тип II, соответствием HIPAA и выделенной локализацией данных. Decagon, которая управляет голосовыми агентами поддержки клиентов для обработки счетов и технических вопросов, уже использует эту платформу.

Together AI привлекла 305 миллионов долларов в феврале 2025 года при оценке в 3,3 миллиарда долларов, а по сообщениям, сейчас ведутся переговоры о привлечении капитала на сумму 7,5 миллиарда долларов. Компания превысила 450 000 разработчиков и достигла более 100 миллионов долларов годовой выручки.

Запуск голосовой платформы означает расширение Beyond основной деятельности по инференсу LLM в растущий рынок голосового ИИ, где задержка и надежность остаются постоянными проблемами для производственных развертываний.

Источник изображения: Shutterstock

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить