Tecnología

Mejora de los modelos de visión y lenguaje: abordar las alucinaciones de objetos múltiples y la inclusión cultural para mejorar la asistencia visual en contextos diversos

Mejora de los modelos de visión y lenguaje: abordar las alucinaciones de objetos múltiples y la inclusión cultural para mejorar la asistencia visual en contextos diversos
https://arxiv.org/pdf/2407.06192

La investigación sobre modelos de visión y lenguaje (VLM) ha cobrado un impulso significativo, impulsada por su potencial para revolucionar diversas aplicaciones, incluida la asistencia visual para personas con discapacidad visual. Sin embargo, las evaluaciones actuales de estos modelos a menudo necesitan prestar más atención a las complejidades introducidas por escenarios de múltiples objetos y contextos culturales diversos. Dos estudios notables arrojan luz sobre estas cuestiones, explorando las complejidades de la alucinación de objetos en modelos de visión-lenguaje y la importancia de la inclusión cultural en su implementación.

Alucinación multiobjeto

La alucinación de objetos ocurre cuando los modelos de visión y lenguaje describen objetos que no están presentes en la imagen dada. Este fenómeno que se observó por primera vez en las tareas de subtítulos de imágenes es particularmente problemático cuando los modelos tienen la tarea de reconocer múltiples objetos simultáneamente. El estudio de alucinaciones de objetos múltiples presenta el protocolo de evaluación de sondeo de objetos basado en reconocimiento (ROPE), un marco integral diseñado para evaluar cómo los modelos manejan escenarios que involucran múltiples objetos. La evaluación se centra en factores como la distribución de clases de objetos dentro de las imágenes y la influencia de las indicaciones visuales en el rendimiento del modelo.

El protocolo ROPE clasifica los escenarios de prueba en cuatro subconjuntos: en la naturaleza, homogéneos, heterogéneos y adversarios. Esta clasificación permite un análisis diferenciado del comportamiento de los modelos bajo diferentes condiciones. Los hallazgos revelan que los modelos grandes de visión y lenguaje (LVLM, por sus siglas en inglés) tienden a alucinar con más frecuencia cuando se enfocan en múltiples objetos que en objetos individuales. El estudio identifica varios factores clave que influyen en los comportamientos de alucinación, incluidos atributos específicos de los datos, como la prominencia y frecuencia de los objetos, y comportamientos intrínsecos del modelo, como la entropía simbólica y la contribución de la modalidad visual.

READ  Dashworks es un motor de búsqueda para el conocimiento interno en expansión de su empresa – TechCrunch

Los resultados empíricos del estudio muestran que las alucinaciones multiobjeto prevalecen en diferentes LVLM, independientemente de su escala o datos de entrenamiento. El punto de referencia ROPE proporciona un método sólido para evaluar y cuantificar estas alucinaciones, lo que destaca la necesidad de conjuntos de datos más equilibrados y protocolos de entrenamiento avanzados para mitigar este problema.

Inclusión cultural en los modelos de visión y lenguaje.

Si bien el desempeño técnico de los modelos visión-lenguaje es crucial, su efectividad depende de su capacidad para abordar diversos contextos culturales. El segundo estudio aborda esto proponiendo un punto de referencia de evaluación centrado en la cultura para los VLM. Esta investigación destaca la brecha en los métodos de evaluación actuales, que a menudo deben considerar los antecedentes culturales de los usuarios, particularmente aquellos con discapacidad visual.

El estudio implica la creación de una encuesta para recopilar las preferencias de personas con discapacidad visual con respecto a la inclusión de detalles culturales en los pies de foto. Según los resultados de la búsqueda, los investigadores filtran el conjunto de datos de VizWiz (una colección de imágenes tomadas por personas ciegas) para identificar fotografías con referencias culturales implícitas. Este conjunto de datos filtrado sirve como punto de referencia para evaluar la competencia cultural de los VLM de próxima generación.

Utilizando este punto de referencia se evalúan varios modelos, tanto de acceso abierto como de código cerrado. Los hallazgos indican que, aunque los modelos de código cerrado como GPT-4o y Gemini-1.5-Pro ​​​​funcionan mejor en la generación de subtítulos culturalmente relevantes, todavía es necesario que haya una brecha significativa en su capacidad para capturar completamente los matices de diferentes culturas. El estudio también revela que las métricas de evaluación automática, comúnmente utilizadas para evaluar el desempeño del modelo, a menudo deben alinearse con el juicio humano, particularmente en escenarios culturalmente diversos.

Análisis comparativo

La yuxtaposición de los hallazgos de ambos estudios proporciona una comprensión de los desafíos que enfrentan los modelos de visión y lenguaje en aplicaciones del mundo real. La cuestión de las alucinaciones multiobjeto resalta las limitaciones técnicas de los modelos actuales, mientras que el enfoque en la inclusión cultural resalta la necesidad de marcos de evaluación más centrados en el ser humano.

Mejoras técnicas:

  1. Protocolo CUERDA: Introducir protocolos de evaluación automatizados que consideren distribuciones de clases de objetos y señales visuales.
  2. Diversidad de datos: Garantice distribuciones equilibradas de diversos objetos y anotaciones en conjuntos de datos de entrenamiento.

Consideraciones culturales:

  1. Búsquedas centradas en el usuario: Incorporar comentarios de personas con discapacidad visual para determinar las preferencias de subtítulos.
  2. Notas culturales: Mejorar los conjuntos de datos con anotaciones específicas de la cultura para mejorar la competencia cultural de los VLM.

Conclusión

La integración de modelos de visión y lenguaje en aplicaciones para usuarios con discapacidad visual es muy prometedora. Sin embargo, abordar los desafíos técnicos y culturales de estos estudios es crucial para hacer realidad este potencial. Los investigadores y desarrolladores pueden crear VLM más confiables y fáciles de usar adoptando marcos de evaluación integrales como ROPE e incorporando la inclusión cultural en la capacitación y evaluación de modelos. Estos esfuerzos mejorarán la precisión de estos modelos y garantizarán que estén mejor alineados con las diversas necesidades de sus usuarios.


Revisar la Articulo 1 Es Artículo 2. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nosotros Más de 46 mil ML SubReddit, Más de 26.000 boletines de IA, Canal de telegramas, Es LinkedInGro.

READ  Google Pixel 7a se filtra en un video práctico borroso, se confirma la frecuencia de actualización de 90Hz

Si está interesado en una asociación promocional (contenido/anuncio/boletín), complete Por aquí.

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Federico Pareja

"Escritora típica. Practicante de comida malvada. Genio zombi. Introvertido. Lector. Erudito de Internet. Entusiasta del café incondicional".

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba