喜欢特斯拉声音?xAI 正式开放 Grok 语音 API,TTS 每百万字符 4.2 美元、识别率击败 ElevenLabs

robot
摘要生成中

xAI 本周正式推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,这套技术栈已在 Grok Voice、特斯拉车辆与 Starlink 客服系统中实际运行。STT 定价为批次每小时 0.10 美元、串流每小时 0.20 美元,支持 25 种以上语言。
(前情提要:Grok 4.3 beta 开放 Heavy 订阅用户!马斯克:真正旗舰版本初训 5 天后完成)
(背景补充:Google 上线 Gemini 3.1 Flash TTS:音频标签让 AI 配音更生动、支持 70+ 语言,Google AI Studio 免费体验)

本文目录

切换

  • STT:词级时间戳+说话者区分,批次转录每小时仅 0.1 美元
  • TTS:5 种语音个性+语音标签,每百万字符 4.2 美元
  • 同一技术栈已驱动特斯拉与 Starlink

同一套让特斯拉车辆开口说话、让 Starlink 客服回应用户的语音技术,现在通过 API 对外开放了。xAI 17 日正式宣布推出独立的 Grok 语音转文字(STT)与文字转语音(TTS)API,让外部开发者得以直接调用这套已在 xAI 旗下产品中运作的语音基础设施。

STT:词级时间戳+说话者区分,批次转录每小时仅 0.1 美元

根据官方说明,Grok STT API 提供两种接入模式:通过 REST API 进行批处理,以及通过 WebSocket API 进行低延迟实时串流。定价方面,批处理为每小时 0.10 美元、串流为每小时 0.20 美元,官方表示相较 ElevenLabs 和 Deepgram 等主流竞争对手,定价具有显著优势。

功能方面,Grok STT 支持 25 种以上语言,具备词级时间戳、说话者区分(speaker diarization),以及多声道音频和智能反向文字规范化。适合会议转录、法律与医疗记录、客服通话日志等需要高精确度的企业场景。

在实体识别基准测试中,Grok STT 展现出优势。在电话通话中识别姓名、账号、日期等关键实体时,Grok STT 的错误率为 5.0%,而 ElevenLabs 为 12.0%、Deepgram 为 13.5%、AssemblyAI 则高达 21.3%。

TTS:5 种语音个性+语音标签,每百万字符 4.2 美元

Grok TTS API 提供五种各具风格的语音选项:Ara(女声,温暖亲切)、Eve(女声,活泼积极)、Leo(男声,权威有力)、Rex(男声,自信清晰)、Sal(中性,流畅均衡)。

API 自动检测输入语言,原生支持 20 种以上语言,并通过 BCP-47 语言代码控制发音。

音频输出格式涵盖 MP3、WAV、PCM(Linear16)、G.711 μ-law 以及 G.711 A-law,后两者为电话系统常见的电话编解码格式,显示 xAI 对电信业整合的布局。

TTS API 的特色功能是“语音标签”,开发者可以在文字中内嵌指令,精细控制停顿、笑声、耳语、语调强调、语速与音高,让合成语音更贴近人类自然表达。定价为每百万字符 4.20 美元。

同一技术栈已驱动特斯拉与 Starlink

xAI 强调,两项 API 背后并非全新研发的技术,而是已在 Grok Voice、特斯拉车辆语音互动,以及 Starlink 客户支持系统中实际执行的相同基础设施。

这套基础设施首先在 2025 年底以 Grok Voice Agent API 的形式亮相,当时提供即时语音对话代理能力,并在 Big Bench Audio 基准测试中排名第一,首次音频响应时间低于 1 秒,约为最近竞争对手的 5 倍速度。

此次推出的 STT 和 TTS 独立端点,等于将这套整合式语音管道的个别元件拆分开放,让开发者可以依需求组合。

XAI-8.41%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论