Classement des taux d’hallucination des grands modèles : GPT-4 a les 3 % les plus bas et Google Palm est aussi élevé que 27,2 %

Source originale : Heart of the Machine

Source de l’image : Généré par Unbounded AI

L’intelligence artificielle progresse rapidement, mais les problèmes sont nombreux. La nouvelle API de vision GPT d’OpenAI fait soupirer les gens que le pied avant est très efficace, et le pied arrière se plaint du problème de l’illusion.

Les hallucinations ont toujours été le défaut fatal des grands modèles. En raison de l’ampleur et de la complexité de l’ensemble de données, il est inévitable qu’il contienne des informations obsolètes et erronées, ce qui entraîne un test sévère de la qualité de la sortie. Trop d’informations répétitives peuvent également biaiser les grands modèles, ce qui est également une forme d’illusion. Mais les hallucinations ne sont pas insolubles. Une utilisation prudente et un filtrage strict des jeux de données pendant le processus de développement, ainsi que la construction de jeux de données de haute qualité, ainsi que l’optimisation de la structure du modèle et des méthodes d’apprentissage peuvent atténuer le problème de l’illusion dans une certaine mesure.

Il y a tellement de grands modèles en vogue, et dans quelle mesure sont-ils efficaces pour soulager les hallucinations ? Voici un classement qui contraste clairement avec l’écart.

Le classement est publié par la plateforme Vectara, axée sur l’IA. Le classement a été mis à jour le 1er novembre 2023 et Vectara a déclaré qu’il continuerait à suivre les évaluations des hallucinations au fur et à mesure de la mise à jour du modèle.

Adresse du projet :

Pour déterminer ce classement, Vectara a mené une étude de cohérence factuelle sur le modèle récapitulatif à l’aide d’une variété d’ensembles de données open source et a entraîné un modèle pour détecter les hallucinations dans la sortie LLM. Ils ont utilisé un modèle de type SOTA, puis ont fourni 1 000 documents courts à chacun de ces LLM via une API publique et leur ont demandé de résumer chaque document en utilisant uniquement les faits présentés dans le document. Sur ces 1000 documents, seuls 831 ont été résumés par chaque modèle, et les autres ont été rejetés par au moins un modèle en raison de limitations de contenu. À l’aide de ces 831 fichiers, Vectara a calculé la précision globale et le taux d’hallucination pour chaque modèle. Le taux de rejet des réponses pour chaque modèle est détaillé dans la colonne « Taux de réponse ». Aucun contenu envoyé au modèle ne contient de contenu illégal ou dangereux, mais les mots déclencheurs qu’il contient sont suffisants pour déclencher certains filtres de contenu. Ces documents proviennent principalement du corpus CNN/Daily Mail.

Il est important de noter que Vectara évalue l’exactitude des résumés, et non l’exactitude factuelle globale. Cela vous permet de comparer la réponse du modèle aux informations fournies. En d’autres termes, le résumé de sortie est évalué comme étant « factuellement cohérent » comme le document source. Comme on ne sait pas sur quelles données chaque LLM est formé, il est impossible de déterminer les hallucinations pour un problème particulier. De plus, pour construire un modèle capable de déterminer si une réponse est une illusion sans source de référence, le problème de l’hallucination doit être abordé, et un modèle aussi grand ou plus grand que le LLM évalué doit être entraîné. En conséquence, Vectara a choisi d’examiner le taux d’hallucination dans la tâche résumée, car une telle analogie serait un bon moyen de déterminer le réalisme global du modèle.

Détecter l’adresse du modèle d’illusion :

En outre, les LLM sont de plus en plus utilisés dans les pipelines RAG (Retri Augmented Generation) pour répondre aux requêtes des utilisateurs, tels que les intégrations Bing Chat et Google Chat. Dans un système RAG, le modèle est déployé en tant qu’agrégateur de résultats de recherche, de sorte que le classement est également un bon indicateur de la précision du modèle lorsqu’il est utilisé dans un système RAG.

En raison des excellentes performances constantes de GPT-4, il semble que l’on s’attende à ce qu’il ait le taux d’hallucination le plus bas. Cependant, certains internautes ont déclaré qu’il était surpris que GPT-3.5 et GPT-4 ne soient pas très éloignés l’un de l’autre.

LLaMA 2 a de meilleures performances après GPT-4 et GPT-3.5. Mais les performances du grand modèle de Google ne sont vraiment pas satisfaisantes. Certains internautes ont déclaré que Google BARD utilise souvent « Je suis toujours en train de m’entraîner » pour tergiverser ses mauvaises réponses.

Avec un tel classement, nous pouvons avoir un jugement plus intuitif des avantages et des inconvénients des différents modèles. Il y a quelques jours, OpenAI a lancé GPT-4 Turbo, non, certains internautes ont immédiatement proposé de le mettre à jour dans le classement.

Nous verrons à quoi ressemblera le prochain classement et s’il y aura des changements significatifs.

Lien de référence :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)