opinião impopular: os lançamentos de modelos de IA estão a ficar aborrecidos.


não porque os modelos não estejam a melhorar.. estão.
mas cada lançamento é só.. benchmarks.
@OpenAI acabou de lançar o GPT-5.4 e o anúncio inteiro é basicamente esta tabela.
75% no OSWorld. 57,7% no SWE-Bench Pro. 94,4% no GPQA Diamond.
fixe.. mas o que é que isso significa para mim, a construir coisas às 2 da manhã?
ninguém fora do AI twitter liga a uma melhoria de 2% no MMLU. ninguém. zero pessoas.
a parte mais divertida? olha bem para a tabela..
> Opus 4.6 está ao alcance em quase todos os benchmarks.
> Gemini 3.1 Pro a bater discretamente todos no BrowseComp com 85,9%.
o "vencedor" muda dependendo da linha que olhas.
Sabes o que quero mesmo ver?
mostra-me a tarefa do mundo real confusa que ele consegue fazer melhor do que antes. mostra-me a demonstração que me faz pensar um pouco. mostra-me alguém a construir algo com isso que não era possível no mês passado.
o melhor benchmark é "isto facilitou a minha vida?"
é só isso. essa é toda a avaliação.
as empresas estão aqui a celebrar os resultados de matemática enquanto os utilizadores só querem saber se finalmente consegue lidar com uma base de código de 4K linhas sem partir metade das funcionalidades.
começa por aí.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar