Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Вам подобається звук Tesla? xAI офіційно відкриває API голосу Grok, TTS коштує 4,2 долара за мільйон символів, а точність розпізнавання перевищує ElevenLabs
xAI цього тижня офіційно запустила окремі API для розпізнавання мови (STT) та синтезу мови (TTS), які вже застосовуються у Grok Voice, автомобілях Tesla та системі обслуговування Starlink. Ця технологічна платформа коштує $0.10 за пакет на годину для обробки та $0.20 за потокову передачу на годину, підтримує понад 25 мов.
(Попередній огляд: бета-версія Grok 4.3 доступна для підписників Heavy! Маск: перша тренувальна версія основного продукту завершиться через 5 днів)
(Додатковий контекст: Google запустила Gemini 3.1 Flash TTS: аудіо-теги роблять озвучку AI більш живою, підтримка понад 70 мов, безкоштовна пробна версія в Google AI Studio)
Зміст статті
Перемикач
Одна й та сама технологія, яка дозволяє автомобілям Tesla говорити та системі Starlink відповідати користувачам голосом, тепер доступна через API. 17 числа xAI офіційно оголосила про запуск окремих API для розпізнавання мови (STT) та синтезу мови (TTS), що дозволяє стороннім розробникам безпосередньо викликати цю голосову інфраструктуру, яка вже працює у продуктах під брендом xAI.
STT: часові мітки на рівні слів + розпізнавання мовця, пакетна обробка всього за $0.10 на годину
За офіційною інформацією, API Grok STT пропонує два режими підключення: через REST API для пакетної обробки та через WebSocket API для низьколатентної потокової передачі в реальному часі. У ціновій політиці, пакетна обробка коштує $0.10 за годину, потокова — $0.20 за годину. Офіційно заявляють, що ціна є значно конкурентоспроможною порівняно з такими гравцями, як ElevenLabs та Deepgram.
З технічної точки зору, Grok STT підтримує понад 25 мов, має часові мітки на рівні слів, розпізнавання мовця (speaker diarization), а також підтримує багатоканальні аудіо та інтелектуальну нормалізацію тексту. Це підходить для конференційних записів, юридичних та медичних документів, журналів обслуговування клієнтів та інших сценаріїв, що вимагають високої точності.
У тестах на розпізнавання об’єктів, Grok STT показала переваги. При розпізнаванні імен, акаунтів, дат та інших ключових об’єктів у телефонних дзвінках, помилка становила 5.0%, тоді як у ElevenLabs — 12.0%, Deepgram — 13.5%, AssemblyAI — 21.3%.
TTS: 5 стилів голосу + голосові теги, $4.2 за мільйон символів
API Grok TTS пропонує п’ять стилів голосу: Ara (жінка, тепла та дружня), Eve (жінка, енергійна та активна), Leo (чоловік, авторитетний та сильний), Rex (чоловік, впевнений і ясний), Sal (нейтральний, плавний і збалансований).
API автоматично визначає мову введення, підтримує понад 20 мов нативно та керується мовними кодами BCP-47 для контролю вимови.
Формати аудіо-виходу включають MP3, WAV, PCM (Linear16), G.711 μ-law та G.711 A-law — останні два є стандартними форматами кодування для телефонних систем, що демонструє інтеграцію xAI з телекомунікаційною галуззю.
Особливістю TTS API є «голосові теги»: розробники можуть вставляти у текст команди для точного контролю пауз, сміху, шепоту, інтонації, швидкості та висоти голосу, що робить синтезовану мову більш природною. Ціна — $4.20 за мільйон символів.
Та сама технологічна платформа вже керує Tesla та Starlink
xAI підкреслює, що обидва API не є новими розробками, а базуються на вже існуючій інфраструктурі, яка застосовується у Grok Voice, голосовій взаємодії з автомобілями Tesla та системі підтримки клієнтів Starlink.
Ця інфраструктура вперше з’явилася наприкінці 2025 року у вигляді API Grok Voice Agent, що забезпечує можливості реального часу для голосового діалогу, і посіла перше місце у тесті Big Bench Audio, з часом відповіді менше 1 секунди — у п’ять разів швидше за найближчих конкурентів.
Запуск окремих точок доступу для STT та TTS фактично розділяє цю інтегровану голосову платформу на окремі компоненти, що дозволяє розробникам збирати потрібні їм модулі.