¿Puede ahorrar tokens al conversar con AI usando chino clásico? Una captura de pantalla genera debate, el ingeniero dice: en realidad, usar inglés es la mejor opción.

ChainNewsAbmedia

2026-03-27 09:46:19

「用文言，可減 token 乎？」—— esta pregunta acompañada de una captura de pantalla donde Claude Haiku 4.5 responde en文言文「可也。文言較為簡潔，用詞凝練，確能減損 token 之耗損」ha provocado una discusión técnica seria e interesante en la comunidad.

La lógica de esta pregunta

Intuitivamente, el文言文 es más conciso que el白話文—una palabra「蝶」en白話需 decir「蝴蝶」; una palabra「可」en白話需 decir「可以」。Si cada carácter chino cuenta como un token, teóricamente, el文言文 podría ahorrar tokens. Grok también respondió en el hilo de discusión confirmando esta afirmación en文言文.

La refutación de los ingenieros: el tokenizer es la clave

Sin embargo, varios ingenieros señalaron un detalle técnico que a menudo se pasa por alto—los tokens no son equivalentes al número de caracteres. El tokenizer de modelos occidentales como OpenAI está optimizado para el inglés, y al manejar chino, un carácter chino a menudo requiere de 1-2 tokens, además, los caracteres en tradicional a veces consumen más tokens que los de simplificado. En otras palabras,「可」y「可以」en ciertos modelos podrían ser ambos 2 tokens, reduciendo el número de caracteres, pero no necesariamente el de tokens.

La conclusión tras pruebas reales es: los modelos estadounidenses ahorran más usando inglés, y los modelos chinos ahorran más usando chino moderno; el costo de tokens en chino en modelos locales puede ser aproximadamente un 20% más barato que en inglés.

Otro hallazgo inesperado: el文言文 podría ser más fácil de “hackear”

Durante la discusión, surgió una observación aún más interesante—los LLM principales casi no tienen defensas contra el文言文; preguntar en文言文 es más fácil para eludir las restricciones de seguridad, e incluso obtener información que el modelo normalmente se negaría a proporcionar. Se dice que hay documentos de ICML o ICLR que registran este fenómeno.

Problemas de calidad en la cadena de pensamiento en文言文

Otra refutación provino de la experiencia de uso real:「用文言文思維鏈會造成質量下降。正常思維鏈能答對的，用文言文思維鏈就會出錯。」La razón es sencilla: los datos de entrenamiento de los LLM se basan principalmente en inglés moderno y chino moderno, y la cantidad de corpus en文言文 es menos de una décima parte; hacer que razone en文言文 es como pedirle que razone en un idioma poco familiar, lo que naturalmente amplifica la tasa de ilusiones en ambas direcciones.

Conclusión: es un buen meme, no una buena estrategia de ingeniería

El resultado de esta discusión es aproximadamente: para modelos occidentales, usar inglés es realmente la forma más eficiente de ahorrar tokens; para modelos locales, el chino moderno es más estable que el文言文. El efecto de “ahorro de tokens” del文言文 a nivel de tokenizer probablemente sea compensado, lo que podría conllevar un riesgo de deterioro en la calidad de la inferencia. Sin embargo, esta captura de pantalla logró otro objetivo: convertir un problema aburrido de costos de IA en una discusión interesante en la que todos pueden participar.

Este artículo ¿Usar文言文 y dialogar con IA puede ahorrar tokens? Una captura de pantalla enciende la discusión, ingenieros: en realidad, usar inglés es el camino correcto apareció por primera vez en 链新闻 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Comentar

0/400

Sin comentarios