NVIDIA lança TensorRT-LLM, que pode melhorar o desempenho de inferência H100 em até 8 vezes

巴比特_

De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.

O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.

No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário