Investigadores de Microsoft presentan Reprompting: un algoritmo de muestreo iterativo que busca recetas de cadena de pensamiento (CoT) para una tarea dada sin intervención humana
En los últimos tiempos, los modelos de lenguaje grande (LLM) han evolucionado y transformado el procesamiento del lenguaje natural con sus técnicas de solicitud de pocas tomas. Estas plantillas han ampliado su usabilidad en casi todos los dominios, desde la traducción automática, la comprensión del lenguaje natural, la finalización de texto, el análisis de sentimientos, el reconocimiento de voz, etc. Con el enfoque de solicitud de pocas tomas, los LLM reciben algunos ejemplos de una tarea específica, junto con algunas instrucciones en lenguaje natural y cómo usarlas; son capaces de adaptarse y aprender a realizar la tarea correctamente. Las tareas que requieren pasos iterativos y la propagación de restricciones vienen con muchas limitaciones cuando se utilizan estas técnicas de solicitud, para superar las cuales se ha introducido un nuevo enfoque.
Un equipo de investigadores de Microsoft Research, Redmond, EE. UU., presentó recientemente un nuevo método llamado Reprompting, que aborda todas las limitaciones que vienen con las técnicas de solicitud. Este enfoque busca automáticamente algunos indicadores de cadena de pensamiento (CoT) útiles y efectivos. La cadena de indicaciones de pensamiento ayuda a mejorar la capacidad de razonamiento de los modelos de lenguaje grandes y les ayuda a realizar tareas de razonamiento complejas. Para esto, se proporcionan algunas demostraciones de cadenas de pensamiento como ejemplos durante la aplicación. La nueva solicitud encuentra avisos de CoT de manera muy eficiente sin ninguna participación humana.
Los investigadores utilizaron un enfoque de muestreo iterativo conocido como muestreo de Gibbs en el algoritmo de repetición. Enmarca el problema como un muestreo de una distribución conjunta de los ingresos de CoT. Como la distribución es difícil de caracterizar directamente, se ha utilizado Gibbs Sampling como método proxy. Este método de muestreo lo ayuda a determinar las mejores instrucciones probando diferentes y decidiendo cuál funciona mejor.
El algoritmo de reacondicionamiento comienza con una muestra de los ingresos iniciales de CoT con la ayuda de avisos de disparo cero, donde no se proporciona información de aviso. El mensaje de disparo cero permite que un LLM genere respuestas de tareas sin capacitación previa. Luego, el algoritmo muestra de forma iterativa nuevas recetas usando soluciones previamente muestreadas como avisos principales, y estas nuevas recetas se usan para resolver otros problemas de entrenamiento, con el objetivo de encontrar un conjunto de avisos que compartan avisos de CoT similares.
El algoritmo se evaluó en cinco tareas Big-Bench Hard (BBH) que requieren un razonamiento de varios pasos. BBH se enfoca en tareas que se cree que están más allá de las habilidades y el potencial de los modelos de lenguaje actuales. ChatGPT e InstructGPT se utilizaron como LLM para la evaluación de algoritmos. Tras la evaluación, se comprobó que el reprompting funcionaba mejor que las técnicas de avisos CoT de tiro cero, tiro bajo y escritas por humanos.
La iteración también mostró un potencial significativo en la combinación de modelos usando diferentes LLM para inicializar y probar nuevas recetas. Puede ayudar a transferir conocimiento de un modelo más fuerte a un modelo más débil, lo que da como resultado un rendimiento notablemente mejor que muestra el modelo más débil. La nueva solicitud funcionó mejor que la solicitud CoT escrita por humanos en las tareas de BBH hasta en 17 puntos. Los investigadores mencionaron que las recetas de CoT que funcionan bien en un modelo pueden no funcionar bien en otro, destacando la necesidad de optimizar el CoT para que cada modelo tenga algunas comparaciones más justas.
En resumen, el algoritmo de reprompting es un excelente enfoque automatizado para encontrar indicaciones de CoT efectivas para LLM sin intervención humana. Es un enfoque valioso para abordar las limitaciones de los métodos existentes y lograr un rendimiento superior en tareas que requieren un razonamiento de varios pasos.
Compruebe el Papel. No olvides unirte nuestro 21k+ ML SubReddit, canal de discordia, Es noticias por correo electrónico, donde compartimos las últimas noticias de investigación de IA, emocionantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos perdimos algo, no dude en enviarnos un correo electrónico a [email protected]
🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA
Tanya Malhotra es estudiante de último año en la Universidad de Estudios de Petróleo y Energía, Dehradun, y estudia BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con buen pensamiento analítico y crítico, así como un gran interés en adquirir nuevas habilidades, liderar grupos y administrar el trabajo de manera organizada.