Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Gartner: Até 2030, os custos de raciocínio em modelos de linguagem de grande escala irão diminuir mais de 90%
Segundo a Gartner, até 2030, o custo de inferência num grande modelo de linguagem (LLM) com mil biliões de parâmetros será mais baixo em mais de 90% do que em 2025, o que fará com que os fornecedores de inteligência artificial generativa (GenAI) poupem custos substanciais.
Um token de IA é a unidade de dados que os modelos de IA generativa processam. Nesta análise, um token equivale a 3,5 bytes de dados, ou seja, cerca de 4 caracteres.
O analista sénior da Gartner, Will Sommer, afirmou: “A redução destes custos beneficiará de vários factores, incluindo melhorias na eficiência dos semicondutores e da infra-estrutura, inovações no desenho dos modelos, aumento da utilização dos chips, maior utilização de chips de inferência dedicados para casos de uso específicos e adopção de dispositivos de ponta em cenários específicos.”
Devido ao impacto destas tendências, a Gartner prevê que, até 2030, a relação custo-benefício dos grandes modelos de linguagem será até 100 vezes superior à dos modelos de início do mesmo porte desenvolvidos em 2022.
Os resultados do modelo de previsão são divididos em dois cenários de semicondutores:
Cenário de ponta: os dados simulados de inferência são baseados em chips de última geração.
Cenário híbrido tradicional: a inferência é baseada numa combinação típica de semicondutores existentes, que é avaliada com base em dados de previsão da consultora Gartner.
No cenário de previsão “híbrido”, o custo calculado é claramente mais elevado do que no cenário “de ponta”.
Cenários de previsão do custo de inferência de inteligência artificial geral
A redução de custos não irá popularizar a tecnologia inteligente de ponta
No entanto, a descida do preço dos tokens nos serviços de inteligência artificial generativa não será totalmente repercutida nos clientes empresariais. Além disso, o número de tokens necessários para aplicações de inteligência de ponta será muito superior ao das aplicações actuais dominantes. Por exemplo, o número de tokens necessários para que os modelos de agentes concluam cada tarefa é de 5 a 30 vezes o de um chatbot padrão de IA generativa, e permite executar ainda mais tarefas do que as realizadas por humanos com IA generativa.
Embora o menor custo unitário por token torne a IA generativa mais avançada mais capaz, estes progressos levarão a um aumento significativo da procura de tokens. Como a taxa de consumo de tokens é superior à velocidade de queda do custo dos tokens, prevê-se que o custo global de inferência aumente.
Sommer afirmou: “Os directores de produto não devem confundir a desvalorização de tokens comercializados com a democratização da inferência de ponta. À medida que os custos da tecnologia de inteligência comercializada se aproximarem de zero, os recursos de computação e os sistemas necessários para suportar inferência avançada continuarão a ser muito escassos. Aqueles directores de produto que hoje usam tokens baratos para mascarar problemas de ineficiência arquitectónica terão dificuldades amanhã em expandir a autonomia em escala.”
As plataformas capazes de coordenar e tratar cargas de trabalho sob vários modelos irão gerar valor. As tarefas regulares e de alta frequência devem ser atribuídas a modelos linguísticos pequenos e mais eficientes, especializados em domínios específicos, porque estes modelos conseguem executar tarefas de fluxos de trabalho específicos com melhor desempenho, a custos que são apenas uma pequena fracção das soluções genéricas. A inferência dispendiosa em níveis de ponta deve ser rigidamente limitada e reservada para tarefas de alta rentabilidade e raciocínio complexo.