Вам подобається звук Tesla? xAI офіційно відкриває API голосу Grok, TTS коштує 4,2 долара за мільйон символів, а точність розпізнавання перевищує ElevenLabs

Question

xAI цього тижня офіційно запустила окремі API для розпізнавання мови (STT) та синтезу мови (TTS), які вже застосовуються у Grok Voice, автомобілях Tesla та системі обслуговування Starlink. Ця технологічна платформа коштує $0.10 за пакет на годину для обробки та $0.20 за потокову передачу на годину, підтримує понад 25 мов.
(Попередній огляд: бета-версія Grok 4.3 доступна для підписників Heavy! Маск: перша тренувальна версія основного продукту завершиться через 5 днів)
(Додатковий контекст: Google запустила Gemini 3.1 Flash TTS: аудіо-теги роблять озвучку AI більш живою, підтримка понад 70 мов, безкоштовна пробна версія в Google AI Studio)

Зміст статті

Перемикач

STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину
TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів
Та сама технологічна платформа вже керує Tesla та Starlink

Одна й та сама технологія, яка дозволяє автомобілям Tesla говорити та системі Starlink відповідати користувачам голосом, тепер доступна через API. 17 числа xAI офіційно оголосила про запуск окремих API для розпізнавання мови (STT) та синтезу мови (TTS), що дозволяє стороннім розробникам безпосередньо викликати цю голосову інфраструктуру, яка вже працює у продуктах під брендом xAI.

STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину

За офіційною інформацією, API Grok STT пропонує два режими підключення: через REST API для пакетної обробки та через WebSocket API для низьколатентної потокової передачі в реальному часі. У ціновій політиці, пакетна обробка коштує $0.10 за годину, потокова — $0.20 за годину. Офіційно заявляють, що ціна є значно конкурентоспроможною порівняно з такими гравцями, як ElevenLabs та Deepgram.

З технічної точки зору, Grok STT підтримує понад 25 мов, має часові мітки на рівні слів, розпізнавання мовця (speaker diarization), а також підтримує багатоканальні аудіо та інтелектуальну нормалізацію тексту. Це підходить для конференційних записів, юридичних та медичних документів, журналів обслуговування клієнтів та інших сценаріїв, що вимагають високої точності.

У тестах на розпізнавання об’єктів, Grok STT показала переваги. При розпізнаванні імен, акаунтів, дат та інших ключових об’єктів у телефонних дзвінках, помилка становила 5.0%, тоді як у ElevenLabs — 12.0%, Deepgram — 13.5%, AssemblyAI — 21.3%.

TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів

API Grok TTS пропонує п’ять стилів голосу: Ara (жінка, тепла та дружня), Eve (жінка, енергійна та активна), Leo (чоловік, авторитетний та сильний), Rex (чоловік, впевнений і ясний), Sal (нейтральний, плавний і збалансований).

API автоматично визначає мову введення, підтримує понад 20 мов нативно та керується мовними кодами BCP-47 для контролю вимови.

Формати аудіо-виходу включають MP3, WAV, PCM (Linear16), G.711 μ-law та G.711 A-law — останні два є стандартними форматами кодування для телефонних систем, що демонструє інтеграцію xAI з телекомунікаційною галуззю.

Особливістю TTS API є «голосові теги»: розробники можуть вставляти у текст команди для точного контролю пауз, сміху, шепоту, інтонації, швидкості та висоти голосу, що робить синтезовану мову більш природною. Ціна — $4.20 за мільйон символів.

Та сама технологічна платформа вже керує Tesla та Starlink

xAI підкреслює, що обидва API не є новими розробками, а базуються на вже існуючій інфраструктурі, яка застосовується у Grok Voice, голосовій взаємодії з автомобілями Tesla та системі підтримки клієнтів Starlink.

Ця інфраструктура вперше з’явилася наприкінці 2025 року у вигляді API Grok Voice Agent, що забезпечує можливості реального часу для голосового діалогу, і посіла перше місце у тесті Big Bench Audio, з часом відповіді менше 1 секунди — у п’ять разів швидше за найближчих конкурентів.

Запуск окремих точок доступу для STT та TTS фактично розділяє цю інтегровану голосову платформу на окремі компоненти, що дозволяє розробникам збирати потрібні їм модулі.

Вам подобається звук Tesla? xAI офіційно відкриває API голосу Grok, TTS коштує 4,2 долара за мільйон символів, а точність розпізнавання перевищує ElevenLabs

STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину

TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів

Та сама технологічна платформа вже керує Tesla та Starlink

Популярні теми

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Закріпити