Gosta do som da Tesla? xAI abre oficialmente a API de voz Grok, TTS a 4,2 dólares por milhão de caracteres, taxa de reconhecimento supera a ElevenLabs

robot
Geração do resumo em andamento

xAI oficialmente lança esta semana a API independente de Reconhecimento de Fala (STT) e de Conversão de Texto em Fala (TTS), que já está operando na Grok Voice, veículos Tesla e no sistema de atendimento ao cliente Starlink.
A precificação do STT é de US$ 0,10 por hora em lote e US$ 0,20 por hora em streaming, suportando mais de 25 idiomas.
(Resumindo: Beta do Grok 4.3 aberto para assinantes Heavy! Elon Musk: a versão flagship real será treinada em 5 dias)
(Complemento de contexto: Google lança Gemini 3.1 Flash TTS: marcações de áudio tornam a dublagem AI mais vívida, suportando mais de 70 idiomas, Google AI Studio oferece experiência gratuita)

Índice deste artigo

Alternar

  • STT: marcações de tempo por palavra + distinção de falantes, transcrição em lote por apenas US$ 0,10 por hora
  • TTS: 5 personalidades de voz + marcações de voz, US$ 4,20 por milhão de caracteres
  • A mesma infraestrutura já alimenta Tesla e Starlink

A mesma tecnologia que faz os veículos Tesla falarem e o atendimento Starlink responder aos usuários agora está disponível via API. A xAI anunciou oficialmente em 17 de maio o lançamento das APIs independentes de Grok de Reconhecimento de Fala (STT) e de Conversão de Texto em Fala (TTS), permitindo que desenvolvedores externos acessem diretamente essa infraestrutura de voz que já opera nos produtos da xAI.

STT: marcações de tempo por palavra + distinção de falantes, transcrição em lote por apenas US$ 0,10 por hora

De acordo com a explicação oficial, a API Grok STT oferece duas formas de acesso: processamento em lote via API REST e streaming de baixa latência via WebSocket. Quanto à precificação, o processamento em lote é de US$ 0,10 por hora e o streaming de US$ 0,20 por hora, com a empresa afirmando que sua tarifa é significativamente competitiva em relação a concorrentes principais como ElevenLabs e Deepgram.

No aspecto funcional, o Grok STT suporta mais de 25 idiomas, possui marcações de tempo por palavra, distinção de falantes (diarização de locutor), além de áudio multicanal e normalização inteligente de texto reverso. É adequado para transcrição de reuniões, registros legais e médicos, logs de atendimento ao cliente e outros cenários empresariais que exigem alta precisão.

Em testes de reconhecimento de entidades, o Grok STT demonstrou vantagem. Ao identificar nomes, contas e datas em chamadas telefônicas, a taxa de erro do Grok STT foi de 5,0%, enquanto ElevenLabs apresentou 12,0%, Deepgram 13,5% e AssemblyAI atingiu 21,3%.

TTS: 5 personalidades de voz + marcações de voz, US$ 4,20 por milhão de caracteres

A API Grok TTS oferece cinco estilos de voz distintos: Ara (feminina, calorosa e amigável), Eve (feminina, animada e positiva), Leo (masculino, autoritário e forte), Rex (masculino, confiante e claro), Sal (neutro, fluido e equilibrado).

A API detecta automaticamente o idioma de entrada, suporta nativamente mais de 20 idiomas e controla a pronúncia via códigos de idioma BCP-47.

Os formatos de saída de áudio incluem MP3, WAV, PCM (Linear16), G.711 μ-law e G.711 A-law, sendo os dois últimos formatos comuns em sistemas telefônicos, indicando o foco da xAI na integração com telecomunicações.

A funcionalidade de destaque do TTS é a “marcação de voz”, onde desenvolvedores podem inserir comandos no texto para controlar pausas, risos, sussurros, ênfase na entonação, velocidade e tom, tornando a fala sintetizada mais natural e humana. A tarifa é de US$ 4,20 por milhão de caracteres.

A mesma infraestrutura já alimenta Tesla e Starlink

A xAI enfatiza que as APIs não representam uma tecnologia totalmente nova, mas sim a mesma infraestrutura que já está em uso na Grok Voice, na interação de voz dos veículos Tesla e no sistema de suporte ao cliente Starlink.

Essa infraestrutura foi inicialmente apresentada no final de 2025 como a API Grok Voice Agent, oferecendo capacidade de diálogo de voz em tempo real, com rankeamento em primeiro lugar na avaliação Big Bench Audio, apresentando tempos de resposta de áudio inferiores a 1 segundo — cerca de cinco vezes mais rápido que os concorrentes recentes.

A introdução das APIs independentes de STT e TTS equivale a dividir essa pipeline de voz integrada em componentes acessíveis separadamente, permitindo que desenvolvedores combinem conforme suas necessidades.

XAI-8,41%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar