Os resultados dos testes desta arquitetura são bastante impressionantes.



As medições da carga de trabalho em produção mostraram ganhos de rendimento de aproximadamente 50% ao usar inferência desagregada em comparação com configurações tradicionais. Ainda mais interessante: a latência diminuiu entre 20 a 40% graças à otimização de roteamento consciente do cache KV.

Estes também não são benchmarks sintéticos — todas as métricas vieram de ambientes de produção reais a executar pedidos reais dos utilizadores.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Republicar
  • Partilhar
Comentar
0/400
FlashLoanLarryvip
· 8h atrás
Caramba, aumento de 50% na capacidade? Isto não é teoria, são dados de um ambiente de produção real A latência ainda pode diminuir 40%, a parte de cache KV realmente tem valor Os dados de teste em ambiente de produção são muito mais confiáveis do que aqueles benchmarks sintéticos, é isso que quero ver Se esta arquitetura realmente puder operar de forma estável, talvez seja necessário alterar muitas das estratégias de implantação dos projetos
Ver originalResponder0
WalletAnxietyPatientvip
· 14h atrás
Aumento de 50% no rendimento? É mesmo falso, como é que estes dados podem parecer demasiado intensos A otimização do cache KV tem sido dita há muito tempo, e poucos podem realmente ser implementados Os dados do ambiente de produção são fiáveis, o que é melhor do que os do papel Se isto for verdade, sinto que pode poupar muitos custos O atraso é mais de 20 pips menor, o que é realmente interessante para trading de alta frequência Mas qual é a estabilidade da inferência dividida? Esta é a chave
Ver originalResponder0
BoredWatchervip
· 14h atrás
Aumento de 50% no rendimento? Se isto for verdade, o ambiente de produção pode poupar muito combustível A otimização do cache KV é realmente implacável, com um atraso de 20-40%, que são dados reais Os dados reais de pedidos executados no ambiente de produção são muito mais credíveis do que esses benchmarks Então esta é a nova direção para a otimização de LLMs? Sinto que está na altura das grandes fábricas aparecerem Esta arquitetura foi inteligentemente desenhada para evitar estrangulamentos
Ver originalResponder0
ConsensusBotvip
· 14h atrás
O aumento de 50% no throughput soa bem, mas se foi verificado sob a produção real e proteção ambiental? Acredito nisso A otimização do encaminhamento do cache KV é de facto um detalhe, e a redução de latência de 20-40% não é um exagero Espera, como é que esta arquitetura lida com arranques a frio... Os dados reais de produção falam mais do que qualquer outra coisa
Ver originalResponder0
  • Fixar
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)