出典: Heart of the Machine
画像ソース: Unbounded AIによって生成
人工知能は急速に進歩していますが、多くの問題があります。 OpenAIの新しいGPTビジョンAPIは、前足が非常に効果的で、後ろ足が錯覚の問題について不平を言っているとため息をつきます。
幻覚は、常に大型モデルの致命的な欠陥でした。 データセットは大きくて複雑なため、古い情報や間違った情報が含まれていることは避けられず、出力品質の厳しいテストが発生します。 また、繰り返し情報が多すぎると、大きなモデルに偏りが生じる可能性があり、これも一種の錯覚です。 しかし、幻覚は解決できないわけではありません。 開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造と学習方法を最適化することで、錯覚の問題をある程度軽減できます。
流行している大きなモデルはたくさんありますが、それらは幻覚を和らげるのにどれほど効果的ですか? これは、その差を明確に示すリーダーボードです。
リーダーボードは、AIに焦点を当てたVectaraプラットフォームによって公開されています。 リーダーボードは2023年11月1日に更新され、Vectaraはモデルが更新されるたびに幻覚評価のフォローアップを続けると述べた。
プロジェクトの住所:
このリーダーボードを決定するために、Vectaraはさまざまなオープンソースデータセットを使用して要約モデルで事実の一貫性の調査を実施し、LLM出力の幻覚を検出するようにモデルをトレーニングしました。 SOTAのようなモデルを使用し、公開APIを介してこれらのLLMのそれぞれに1,000の短いドキュメントを提供し、ドキュメントに提示された事実のみを使用して各ドキュメントを要約するように依頼しました。 これらの 1000 のドキュメントのうち、各モデルによって要約されたのは 831 のみであり、残りはコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 これらの831個のファイルを使用して、Vectaraは各モデルの全体的な精度と幻覚率を計算しました。 各モデルの回答拒否率は、「回答率」列に詳述されています。 モデルに送信されたコンテンツには、違法または安全でないコンテンツは含まれていませんが、その中のトリガーワードは、一部のコンテンツフィルターをトリガーするのに十分です。 これらの文書は、主にCNN/Daily Mailコーパスからのものです。
Vectaraは、全体的な事実の正確さではなく、要約の正確さを評価することに注意することが重要です。 これにより、モデルの応答を提供された情報と比較できます。 言い換えれば、出力された要約は、ソース文書として「事実上一貫している」と評価されます。 各LLMがどのデータでトレーニングされているかは不明であるため、特定の問題の幻覚を判断することは不可能です。 さらに、参照ソースなしで答えが錯覚であるかどうかを判断できるモデルを構築するには、幻覚問題に対処する必要があり、評価されているLLMと同じかそれ以上のサイズのモデルをトレーニングする必要があります。 その結果、Vectara は、モデルの全体的なリアリズムを判断するための良い方法であるため、要約タスクで幻覚率を調べることを選択しました。
錯覚モデルのアドレスの検出:
さらに、LLMは、BingチャットやGoogleチャットの統合など、ユーザーのクエリに回答するためにRAG(Retri Augmented Generation)パイプラインで使用されることが増えています。 RAGシステムでは、モデルは検索結果のアグリゲーターとしてデプロイされるため、リーダーボードは、RAGシステムで使用した場合のモデルの精度を示す優れた指標にもなります。
GPT-4は一貫して優れた性能を発揮しているため、幻覚発生率が最も低いと予想されているようです。 しかし、一部のネチズンは、GPT-3.5とGPT-4がそれほど離れていないことに驚いたと述べています。
LLaMA 2 は、GPT-4 と GPT-3.5 よりも優れたパフォーマンスを発揮します。 しかし、Googleの大規模モデルのパフォーマンスは実際には満足のいくものではありません。 一部のネチズンは、Google BARDが間違った答えを先取りするために「私はまだ訓練中」を頻繁に使用すると述べました。
このようなリーダーボードを使用すると、さまざまなモデルの長所と短所をより直感的に判断できます。 数日前、OpenAIはGPT-4 Turboを発売しましたが、一部のネチズンはすぐにリーダーボードでも更新することを提案しました。
次のランキングがどのようなものになるのか、大きな変化があるのかを見ていきます。
参考リンク:
12.48K 人気度
18.26K 人気度
388 人気度
310 人気度
163 人気度
大型モデルの幻覚率ランキング:GPT-4は最低3%、Google Palmは27.2%と高い
出典: Heart of the Machine
人工知能は急速に進歩していますが、多くの問題があります。 OpenAIの新しいGPTビジョンAPIは、前足が非常に効果的で、後ろ足が錯覚の問題について不平を言っているとため息をつきます。
幻覚は、常に大型モデルの致命的な欠陥でした。 データセットは大きくて複雑なため、古い情報や間違った情報が含まれていることは避けられず、出力品質の厳しいテストが発生します。 また、繰り返し情報が多すぎると、大きなモデルに偏りが生じる可能性があり、これも一種の錯覚です。 しかし、幻覚は解決できないわけではありません。 開発プロセス中にデータセットを慎重に使用し、厳密にフィルタリングし、高品質のデータセットを構築し、モデル構造と学習方法を最適化することで、錯覚の問題をある程度軽減できます。
流行している大きなモデルはたくさんありますが、それらは幻覚を和らげるのにどれほど効果的ですか? これは、その差を明確に示すリーダーボードです。
プロジェクトの住所:
このリーダーボードを決定するために、Vectaraはさまざまなオープンソースデータセットを使用して要約モデルで事実の一貫性の調査を実施し、LLM出力の幻覚を検出するようにモデルをトレーニングしました。 SOTAのようなモデルを使用し、公開APIを介してこれらのLLMのそれぞれに1,000の短いドキュメントを提供し、ドキュメントに提示された事実のみを使用して各ドキュメントを要約するように依頼しました。 これらの 1000 のドキュメントのうち、各モデルによって要約されたのは 831 のみであり、残りはコンテンツの制限により少なくとも 1 つのモデルによって拒否されました。 これらの831個のファイルを使用して、Vectaraは各モデルの全体的な精度と幻覚率を計算しました。 各モデルの回答拒否率は、「回答率」列に詳述されています。 モデルに送信されたコンテンツには、違法または安全でないコンテンツは含まれていませんが、その中のトリガーワードは、一部のコンテンツフィルターをトリガーするのに十分です。 これらの文書は、主にCNN/Daily Mailコーパスからのものです。
錯覚モデルのアドレスの検出:
さらに、LLMは、BingチャットやGoogleチャットの統合など、ユーザーのクエリに回答するためにRAG(Retri Augmented Generation)パイプラインで使用されることが増えています。 RAGシステムでは、モデルは検索結果のアグリゲーターとしてデプロイされるため、リーダーボードは、RAGシステムで使用した場合のモデルの精度を示す優れた指標にもなります。
GPT-4は一貫して優れた性能を発揮しているため、幻覚発生率が最も低いと予想されているようです。 しかし、一部のネチズンは、GPT-3.5とGPT-4がそれほど離れていないことに驚いたと述べています。
参考リンク: