Вам подобається звук Tesla? xAI офіційно відкриває API голосу Grok, TTS коштує 4,2 долара за мільйон символів, а точність розпізнавання перевищує ElevenLabs

robot
Генерація анотацій у процесі

xAI цього тижня офіційно запустила окремі API для розпізнавання мови (STT) та синтезу мови (TTS), які вже застосовуються у Grok Voice, автомобілях Tesla та системі обслуговування Starlink. Ця технологічна платформа коштує $0.10 за пакет на годину для обробки та $0.20 за потокову передачу на годину, підтримує понад 25 мов.
(Попередній огляд: бета-версія Grok 4.3 доступна для підписників Heavy! Маск: перша тренувальна версія основного продукту завершиться через 5 днів)
(Додатковий контекст: Google запустила Gemini 3.1 Flash TTS: аудіо-теги роблять озвучку AI більш живою, підтримка понад 70 мов, безкоштовна пробна версія в Google AI Studio)

Зміст статті

Перемикач

  • STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину
  • TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів
  • Та сама технологічна платформа вже керує Tesla та Starlink

Одна й та сама технологія, яка дозволяє автомобілям Tesla говорити та системі Starlink відповідати користувачам голосом, тепер доступна через API. 17 числа xAI офіційно оголосила про запуск окремих API для розпізнавання мови (STT) та синтезу мови (TTS), що дозволяє стороннім розробникам безпосередньо викликати цю голосову інфраструктуру, яка вже працює у продуктах під брендом xAI.

STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину

За офіційною інформацією, API Grok STT пропонує два режими підключення: через REST API для пакетної обробки та через WebSocket API для низьколатентної потокової передачі в реальному часі. У ціновій політиці, пакетна обробка коштує $0.10 за годину, потокова — $0.20 за годину. Офіційно заявляють, що ціна є значно конкурентоспроможною порівняно з такими гравцями, як ElevenLabs та Deepgram.

З технічної точки зору, Grok STT підтримує понад 25 мов, має часові мітки на рівні слів, розпізнавання мовця (speaker diarization), а також підтримує багатоканальні аудіо та інтелектуальну нормалізацію тексту. Це підходить для конференційних записів, юридичних та медичних документів, журналів обслуговування клієнтів та інших сценаріїв, що вимагають високої точності.

У тестах на розпізнавання об’єктів, Grok STT показала переваги. При розпізнаванні імен, акаунтів, дат та інших ключових об’єктів у телефонних дзвінках, помилка становила 5.0%, тоді як у ElevenLabs — 12.0%, Deepgram — 13.5%, AssemblyAI — 21.3%.

TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів

API Grok TTS пропонує п’ять стилів голосу: Ara (жінка, тепла та дружня), Eve (жінка, енергійна та активна), Leo (чоловік, авторитетний та сильний), Rex (чоловік, впевнений і ясний), Sal (нейтральний, плавний і збалансований).

API автоматично визначає мову введення, підтримує понад 20 мов нативно та керується мовними кодами BCP-47 для контролю вимови.

Формати аудіо-виходу включають MP3, WAV, PCM (Linear16), G.711 μ-law та G.711 A-law — останні два є стандартними форматами кодування для телефонних систем, що демонструє інтеграцію xAI з телекомунікаційною галуззю.

Особливістю TTS API є «голосові теги»: розробники можуть вставляти у текст команди для точного контролю пауз, сміху, шепоту, інтонації, швидкості та висоти голосу, що робить синтезовану мову більш природною. Ціна — $4.20 за мільйон символів.

Та сама технологічна платформа вже керує Tesla та Starlink

xAI підкреслює, що обидва API не є новими розробками, а базуються на вже існуючій інфраструктурі, яка застосовується у Grok Voice, голосовій взаємодії з автомобілями Tesla та системі підтримки клієнтів Starlink.

Ця інфраструктура вперше з’явилася наприкінці 2025 року у вигляді API Grok Voice Agent, що забезпечує можливості реального часу для голосового діалогу, і посіла перше місце у тесті Big Bench Audio, з часом відповіді менше 1 секунди — у п’ять разів швидше за найближчих конкурентів.

Запуск окремих точок доступу для STT та TTS фактично розділяє цю інтегровану голосову платформу на окремі компоненти, що дозволяє розробникам збирати потрібні їм модулі.

XAI-8,41%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити