Tsinghua KEG Lab e Zhipu AI lançaram conjuntamente o CogAgent, um modelo de compreensão de imagem grande

WendyCS
VET1,33%

Bit News Tsinghua KEG Lab recentemente cooperou com Zhipu AI para lançar em conjunto uma nova geração de compreensão de imagem modelo grande CogAgent. Baseado no CogVLM lançado anteriormente, o modelo usa modalidades visuais em vez de texto para fornecer uma perceção mais abrangente e direta da interface GUI através de um agente GUI visual para planejamento e tomada de decisão. É relatado que o CogAgent pode aceitar entrada de imagem de alta resolução 1120×1120, com resposta visual a perguntas, posicionamento visual (Grounding), GUI Agent e outros recursos, em 9 listas clássicas de compreensão de imagem (incluindo VQAv2, STVQA, DocVQA, TextVQA, MM-VET, POPE, etc.) alcançou o primeiro resultado em habilidade geral.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários