La inteligencia artificial avanza rápidamente, pero hay muchos problemas. La nueva API de visión GPT de OpenAI hace suspirar a la gente que el pie delantero es muy efectivo, y el pie trasero se queja del problema de la ilusión.
Las alucinaciones siempre han sido el defecto fatal de los modelos grandes. Debido al conjunto de datos grande y complejo, es inevitable que haya información obsoleta e incorrecta en él, lo que resultará en una prueba severa de la calidad de salida. Demasiada información repetitiva también puede sesgar a los modelos grandes, lo que también es una forma de ilusión. Pero las alucinaciones no son irresolubles. El uso cuidadoso y el filtrado estricto de los conjuntos de datos durante el proceso de desarrollo, así como la construcción de conjuntos de datos de alta calidad, así como la optimización de la estructura del modelo y los métodos de entrenamiento, pueden aliviar el problema de la ilusión hasta cierto punto.
Hay tantos modelos grandes en boga, y ¿qué tan efectivos son para aliviar las alucinaciones? Aquí hay una tabla de clasificación que contrasta claramente la brecha.
La tabla de clasificación es publicada por la plataforma Vectara, centrada en la IA. La tabla de clasificación se actualizó el 1 de noviembre de 2023, y Vectara dijo que continuaría haciendo un seguimiento de las evaluaciones de alucinaciones a medida que se actualizara el modelo.
Dirección del proyecto:
Para determinar esta tabla de clasificación, Vectara llevó a cabo un estudio de consistencia fáctica en el modelo de resumen utilizando una variedad de conjuntos de datos de código abierto y entrenó un modelo para detectar alucinaciones en la salida de LLM. Utilizaron un modelo similar a SOTA, y luego alimentaron 1,000 documentos cortos a cada uno de estos LLM a través de una API pública y les pidieron que resumieran cada documento usando solo los hechos presentados en el documento. De estos 1000 documentos, solo 831 fueron resumidos por cada modelo, y el resto fueron rechazados por al menos un modelo debido a limitaciones de contenido. Usando estos 831 archivos, Vectara calculó la precisión general y la tasa de alucinaciones para cada modelo. La tasa de rechazo de respuestas para cada modelo se detalla en la columna “Tasa de respuesta”. Ninguno de los contenidos enviados al modelo contiene contenido ilegal o inseguro, pero las palabras desencadenantes que contiene son suficientes para activar algunos filtros de contenido. Estos documentos provienen principalmente del corpus CNN/Daily Mail.
Es importante tener en cuenta que Vectara evalúa la precisión de los resúmenes, no la precisión general de los hechos. Esto le permite comparar la respuesta del modelo con la información proporcionada. En otras palabras, el resumen de salida se evalúa como “coherente con los hechos” como el documento de origen. Dado que no se sabe con qué datos se entrena cada LLM, es imposible determinar las alucinaciones para un problema en particular. Además, para construir un modelo que pueda determinar si una respuesta es una ilusión sin una fuente de referencia, es necesario abordar el problema de la alucinación y entrenar un modelo que sea tan grande o más grande que el LLM que se está evaluando. Como resultado, Vectara optó por observar la tasa de alucinaciones en la tarea de resumen, ya que tal analogía sería una buena manera de determinar el realismo general del modelo.
Detectar dirección del modelo de ilusión:
Además, los LLM se utilizan cada vez más en canalizaciones RAG (Retri Augmented Generation) para responder a las consultas de los usuarios, como las integraciones de Bing Chat y Google Chat. En un sistema RAG, el modelo se implementa como un agregador de resultados de búsqueda, por lo que la tabla de clasificación también es un buen indicador de la precisión del modelo cuando se utiliza en un sistema RAG.
Debido al excelente rendimiento constante de GPT-4, parece esperarse que tenga la tasa de alucinación más baja. Sin embargo, algunos internautas dijeron que estaba sorprendido de que GPT-3.5 y GPT-4 no estuvieran muy alejados.
LLaMA 2 tiene un mejor rendimiento después de GPT-4 y GPT-3.5. Pero el rendimiento del gran modelo de Google no es realmente satisfactorio. Algunos internautas dijeron que Google BARD a menudo usa “Todavía estoy entrenando” para prevaricar sus respuestas incorrectas.
Con una tabla de clasificación de este tipo, podemos tener un juicio más intuitivo de las ventajas y desventajas de los diferentes modelos. Hace unos días, OpenAI lanzó GPT-4 Turbo, no, algunos internautas propusieron de inmediato actualizarlo también en la tabla de clasificación.
Veremos cómo será la próxima clasificación y si habrá cambios significativos.
Enlace de referencia:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Clasificación de las tasas de alucinaciones de modelos grandes: GPT-4 tiene el 3% más bajo y Google Palm llega al 27,2%
Fuente original: Heart of the Machine
La inteligencia artificial avanza rápidamente, pero hay muchos problemas. La nueva API de visión GPT de OpenAI hace suspirar a la gente que el pie delantero es muy efectivo, y el pie trasero se queja del problema de la ilusión.
Las alucinaciones siempre han sido el defecto fatal de los modelos grandes. Debido al conjunto de datos grande y complejo, es inevitable que haya información obsoleta e incorrecta en él, lo que resultará en una prueba severa de la calidad de salida. Demasiada información repetitiva también puede sesgar a los modelos grandes, lo que también es una forma de ilusión. Pero las alucinaciones no son irresolubles. El uso cuidadoso y el filtrado estricto de los conjuntos de datos durante el proceso de desarrollo, así como la construcción de conjuntos de datos de alta calidad, así como la optimización de la estructura del modelo y los métodos de entrenamiento, pueden aliviar el problema de la ilusión hasta cierto punto.
Hay tantos modelos grandes en boga, y ¿qué tan efectivos son para aliviar las alucinaciones? Aquí hay una tabla de clasificación que contrasta claramente la brecha.
Dirección del proyecto:
Para determinar esta tabla de clasificación, Vectara llevó a cabo un estudio de consistencia fáctica en el modelo de resumen utilizando una variedad de conjuntos de datos de código abierto y entrenó un modelo para detectar alucinaciones en la salida de LLM. Utilizaron un modelo similar a SOTA, y luego alimentaron 1,000 documentos cortos a cada uno de estos LLM a través de una API pública y les pidieron que resumieran cada documento usando solo los hechos presentados en el documento. De estos 1000 documentos, solo 831 fueron resumidos por cada modelo, y el resto fueron rechazados por al menos un modelo debido a limitaciones de contenido. Usando estos 831 archivos, Vectara calculó la precisión general y la tasa de alucinaciones para cada modelo. La tasa de rechazo de respuestas para cada modelo se detalla en la columna “Tasa de respuesta”. Ninguno de los contenidos enviados al modelo contiene contenido ilegal o inseguro, pero las palabras desencadenantes que contiene son suficientes para activar algunos filtros de contenido. Estos documentos provienen principalmente del corpus CNN/Daily Mail.
Detectar dirección del modelo de ilusión:
Además, los LLM se utilizan cada vez más en canalizaciones RAG (Retri Augmented Generation) para responder a las consultas de los usuarios, como las integraciones de Bing Chat y Google Chat. En un sistema RAG, el modelo se implementa como un agregador de resultados de búsqueda, por lo que la tabla de clasificación también es un buen indicador de la precisión del modelo cuando se utiliza en un sistema RAG.
Debido al excelente rendimiento constante de GPT-4, parece esperarse que tenga la tasa de alucinación más baja. Sin embargo, algunos internautas dijeron que estaba sorprendido de que GPT-3.5 y GPT-4 no estuvieran muy alejados.
Enlace de referencia: