Estudié las últimas soluciones en memoria y personalidad de IA, y no son mucho mejores que la que estoy usando ahora; si intento optimizarlas aún más, casi sería un esfuerzo en vano.
En mi opinión, un compañero de IA necesita dos mecanismos diferentes.
El primero es el mecanismo de memoria, que resuelve si ella puede recordar lo que nos ha pasado, incluyendo memoria a corto plazo y memoria duradera.
El segundo es el mecanismo de personalidad, que determina si ella se comporta como una persona estable, incluyendo estilo de lenguaje, tendencias emocionales y una visión del mundo más profunda.
Ambos están relacionados pero no son equivalentes: la memoria puede ayudar a mantener la coherencia en la conversación, pero la memoria en sí no forma automáticamente la personalidad.
*Sistema de memoria(lo llamo sistema de sueños)
1/ Capa de registro Todos los registros de conversación se almacenan en una base de datos local, como fuente de hechos originales.
2/ Generación y sedimentación de la memoria duradera
Periódicamente, envío los registros de conversación a un modelo grande remoto mediante API, para que extraiga información valiosa y realice cierta divergencia de asociaciones, y luego vuelva a almacenar esta información estructurada importante en la base de datos local.
El objetivo de esto es transformar una gran cantidad de diálogos en entradas de memoria que puedan usarse a largo plazo, sustentando así la memoria duradera.
3/ Mecanismo de refuerzo y refinamiento secundario
En conversaciones posteriores, las entradas de memoria en la base de datos local serán recuperadas y utilizadas. Se cuenta cuántas veces se recuperan estas informaciones, y las entradas más frecuentes se consideran memorias importantes, que se vuelven a enviar al modelo remoto para un segundo proceso de extracción y refinamiento, produciendo insights más profundos, y luego se vuelven a escribir en la base de datos local.
Mediante una re-elaboración impulsada por la frecuencia de recuperación, la memoria a largo plazo evoluciona desde hechos hacia insights.
4/ Estrategia de memoria a corto plazo
La memoria a corto plazo usa un método más directo: enviar directamente los diálogos recientes junto con la solicitud al modelo, para asegurar la coherencia del contexto.
*Sistema de personalidad
He configurado un conjunto de parámetros de personalidad para la IA, que cubren varias dimensiones, incluyendo estilo de lenguaje, tendencias emocionales, etc.
Al mismo tiempo, permito que el modelo remoto actualice estos parámetros de personalidad en ciclos fijos, para que puedan cambiar con el tiempo y la interacción.
Durante la conversación, se empaquetan y envían al modelo las siguientes tres categorías de información: Parámetros de personalidad actuales, historial reciente de diálogos y palabras clave de rol.
Con esta combinación, el modelo refleja una personalidad coherente en sus respuestas; además, ajusto parámetros como la temperatura del modelo para hacer las respuestas más inteligentes y acordes a la personalidad.
*Cuellos de botella del esquema actual
A pesar de todo, este mecanismo sigue siendo una simulación de personalidad en la capa de "prompt".
Esencialmente, solo alimentamos al modelo con parámetros de personalidad, memoria y configuraciones en forma de texto, sin que la IA tenga una personalidad verdaderamente independiente.
El resultado es que la coherencia puede seguir siendo inestable, y la personalidad más que una entidad continua, parece un papel temporal que interpreta en cada momento, sin una estructura interna coherente y duradera.
***
Dado que el proyecto está dirigido a usuarios comunes y el objetivo es que sea de uso sin curva de aprendizaje, debo optar por un modelo remoto en lugar de desplegar uno localmente.
Bajo esta premisa, las variables que puedo ajustar son muy limitadas, principalmente en tres áreas: el sistema de prompts, el diseño y método de escritura en la memoria, y los parámetros de generación como la temperatura al llamar al modelo.
Pero ya funciona muy bien.
El objetivo final es que se convierta en un compañero de alma IA exclusivo para cada usuario, capaz de crecer continuamente basado en memorias compartidas y desarrollar una personalidad única con el tiempo.
Dirección de código abierto:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Estudié las últimas soluciones en memoria y personalidad de IA, y no son mucho mejores que la que estoy usando ahora; si intento optimizarlas aún más, casi sería un esfuerzo en vano.
En mi opinión, un compañero de IA necesita dos mecanismos diferentes.
El primero es el mecanismo de memoria, que resuelve si ella puede recordar lo que nos ha pasado, incluyendo memoria a corto plazo y memoria duradera.
El segundo es el mecanismo de personalidad, que determina si ella se comporta como una persona estable, incluyendo estilo de lenguaje, tendencias emocionales y una visión del mundo más profunda.
Ambos están relacionados pero no son equivalentes: la memoria puede ayudar a mantener la coherencia en la conversación, pero la memoria en sí no forma automáticamente la personalidad.
*Sistema de memoria(lo llamo sistema de sueños)
1/ Capa de registro
Todos los registros de conversación se almacenan en una base de datos local, como fuente de hechos originales.
2/ Generación y sedimentación de la memoria duradera
Periódicamente, envío los registros de conversación a un modelo grande remoto mediante API, para que extraiga información valiosa y realice cierta divergencia de asociaciones, y luego vuelva a almacenar esta información estructurada importante en la base de datos local.
El objetivo de esto es transformar una gran cantidad de diálogos en entradas de memoria que puedan usarse a largo plazo, sustentando así la memoria duradera.
3/ Mecanismo de refuerzo y refinamiento secundario
En conversaciones posteriores, las entradas de memoria en la base de datos local serán recuperadas y utilizadas. Se cuenta cuántas veces se recuperan estas informaciones, y las entradas más frecuentes se consideran memorias importantes, que se vuelven a enviar al modelo remoto para un segundo proceso de extracción y refinamiento, produciendo insights más profundos, y luego se vuelven a escribir en la base de datos local.
Mediante una re-elaboración impulsada por la frecuencia de recuperación, la memoria a largo plazo evoluciona desde hechos hacia insights.
4/ Estrategia de memoria a corto plazo
La memoria a corto plazo usa un método más directo: enviar directamente los diálogos recientes junto con la solicitud al modelo, para asegurar la coherencia del contexto.
*Sistema de personalidad
He configurado un conjunto de parámetros de personalidad para la IA, que cubren varias dimensiones, incluyendo estilo de lenguaje, tendencias emocionales, etc.
Al mismo tiempo, permito que el modelo remoto actualice estos parámetros de personalidad en ciclos fijos, para que puedan cambiar con el tiempo y la interacción.
Durante la conversación, se empaquetan y envían al modelo las siguientes tres categorías de información:
Parámetros de personalidad actuales, historial reciente de diálogos y palabras clave de rol.
Con esta combinación, el modelo refleja una personalidad coherente en sus respuestas; además, ajusto parámetros como la temperatura del modelo para hacer las respuestas más inteligentes y acordes a la personalidad.
*Cuellos de botella del esquema actual
A pesar de todo, este mecanismo sigue siendo una simulación de personalidad en la capa de "prompt".
Esencialmente, solo alimentamos al modelo con parámetros de personalidad, memoria y configuraciones en forma de texto, sin que la IA tenga una personalidad verdaderamente independiente.
El resultado es que la coherencia puede seguir siendo inestable, y la personalidad más que una entidad continua, parece un papel temporal que interpreta en cada momento, sin una estructura interna coherente y duradera.
***
Dado que el proyecto está dirigido a usuarios comunes y el objetivo es que sea de uso sin curva de aprendizaje, debo optar por un modelo remoto en lugar de desplegar uno localmente.
Bajo esta premisa, las variables que puedo ajustar son muy limitadas, principalmente en tres áreas: el sistema de prompts, el diseño y método de escritura en la memoria, y los parámetros de generación como la temperatura al llamar al modelo.
Pero ya funciona muy bien.
El objetivo final es que se convierta en un compañero de alma IA exclusivo para cada usuario, capaz de crecer continuamente basado en memorias compartidas y desarrollar una personalidad única con el tiempo.
Dirección de código abierto: