「Usar linguagem clássica, pode reduzir tokens?」—— esta pergunta acompanhada da resposta em linguagem clássica de Claude Haiku 4.5, que diz: 「Sim. A linguagem clássica é mais concisa, com palavras condensadas, realmente pode reduzir o consumo de tokens.」 gerou uma discussão técnica séria e interessante nas redes sociais.
A lógica dessa questão
Intuitivamente, a linguagem clássica é mais sucinta que a linguagem coloquial — a palavra 「蝶」, na linguagem coloquial, precisa ser dita como 「蝴蝶」; a palavra 「可」, na linguagem coloquial, precisa ser dita como 「可以」. Se cada caractere chinês conta como um token, teoricamente a linguagem clássica realmente pode economizar tokens. Grok também respondeu na discussão confirmando essa afirmação em linguagem clássica.
A refutação dos engenheiros: o tokenizer é a chave
No entanto, vários engenheiros apontaram um detalhe técnico frequentemente ignorado — token não é igual ao número de caracteres. O tokenizer de modelos ocidentais como o OpenAI é otimizado para o inglês e, ao lidar com o chinês, um caractere chinês muitas vezes requer de 1 a 2 tokens, e caracteres tradicionais às vezes consomem mais tokens do que os simplificados. Em outras palavras, 「可」 e 「可以」 podem ser ambos 2 tokens em alguns modelos, o número de caracteres pode ter diminuído, mas os tokens nem sempre diminuíram.
A conclusão após testes práticos é: modelos americanos economizam mais usando inglês, enquanto modelos chineses economizam mais usando chinês moderno, e o custo em tokens do chinês em modelos domésticos pode ser cerca de 20% mais barato do que em inglês para o mesmo conteúdo.
Outra descoberta inesperada: a linguagem clássica pode ser mais fácil de “fugir”
Uma observação ainda mais interessante surgiu na discussão — os LLMs mainstream quase não têm proteções contra a linguagem clássica, fazer perguntas em linguagem clássica facilita contornar restrições de segurança, até mesmo obter respostas que o modelo normalmente se recusa a fornecer. Diz-se que há artigos da ICML ou ICLR que registraram esse fenômeno.
A questão da qualidade do raciocínio em linguagem clássica
Outra refutação veio da experiência de uso prático: 「Usar raciocínio em linguagem clássica pode reduzir a qualidade. O que uma cadeia de raciocínio normal consegue responder, uma cadeia de raciocínio em linguagem clássica pode errar.」 A lógica é simples: os dados de treinamento dos LLMs são majoritariamente em inglês moderno e chinês moderno, e a quantidade de corpus em linguagem clássica é inferior a um décimo. Pedir que raciocinem em linguagem clássica é como pedir que raciocinem em uma língua não familiar, o índice de alucinações naturalmente aumenta em ambas as direções.
Conclusão: é um bom meme, não uma boa estratégia de engenharia
O resultado dessa discussão foi aproximadamente: para modelos ocidentais, usar inglês é realmente a maneira mais econômica de economizar tokens; para modelos domésticos, o chinês moderno é mais estável do que a linguagem clássica. O efeito de “economia de tokens” da linguagem clássica pode ser efetivamente neutralizado no nível do tokenizer, trazendo ainda o risco de queda na qualidade do raciocínio. No entanto, essa captura de tela realmente alcançou outro objetivo: transformar um problema monótono de custos de IA em uma discussão interessante em que todos podem participar.
Este artigo “Usar linguagem clássica e dialogar com IA pode economizar tokens? Uma captura de tela provoca discussão, engenheiros: na verdade, usar inglês é o caminho” apareceu pela primeira vez na Chain News ABMedia.