Las imágenes sintéticas establecen nuevos estándares en la eficiencia del entrenamiento de IA | Noticias del MIT

Prudencia Febonoviembre 20, 2023

0 16 4 minutos de lectura

Las imágenes sintéticas establecen nuevos estándares en la eficiencia del entrenamiento de IA | Noticias del MIT

Los datos son el nuevo suelo, y en este nuevo terreno fértil, los investigadores del MIT están plantando algo más que píxeles. Al utilizar imágenes sintéticas para entrenar modelos de aprendizaje automático, un equipo de científicos superó recientemente los resultados obtenidos con los métodos tradicionales de entrenamiento con “imágenes reales”.

En el centro de este enfoque se encuentra un sistema llamado Representante estable, que no sólo utiliza imágenes sintéticas; los genera a través de plantillas de conversión de texto a imagen muy populares como Stable Diffusion. Es como crear mundos con palabras.

Entonces, ¿qué hay en la salsa secreta de StableRep? Una estrategia llamada “aprendizaje contrastivo multipositivo”.

“Estamos enseñando al modelo a aprender más sobre conceptos de alto nivel a través del contexto y la variación, no solo alimentándolo con datos”, dice Lijie Fan, estudiante de doctorado en ingeniería eléctrica del MIT afiliada al Laboratorio de Ciencias de la Computación y al Laboratorio de Inteligencia Artificial del MIT (CSAIL). ). ), investigador principal del trabajo. «Cuando varias imágenes, todas generadas a partir del mismo texto, se tratan como representaciones de lo mismo subyacente, el modelo profundiza en los conceptos detrás de las imágenes, digamos el objeto, no solo sus píxeles».

Este enfoque considera múltiples imágenes generadas a partir de mensajes de texto idénticos como pares positivos, proporcionando información adicional durante el entrenamiento, no solo agregando más diversidad, sino también especificando al sistema de visión qué imágenes son similares y cuáles son diferentes. En particular, StableRep superó a los modelos de primer nivel entrenados en imágenes reales, como SimCLR y CLIP, en conjuntos de datos extensos.

“Si bien StableRep ayuda a mitigar los desafíos de adquisición de datos en el aprendizaje automático, también marca el comienzo de una nueva era de técnicas de entrenamiento de IA. La capacidad de producir imágenes sintéticas diversas y de alto calibre según se desee podría ayudar a reducir grandes gastos y recursos”, afirma Fan.

El proceso de recopilación de datos nunca ha sido sencillo. En la década de 1990, los investigadores tuvieron que capturar fotografías manualmente para reunir conjuntos de datos de objetos y rostros. En la década de 2000, las personas buscaban datos en Internet. Sin embargo, estos datos crudos y no seleccionados a menudo contenían discrepancias en comparación con escenarios del mundo real y reflejaban prejuicios sociales, presentando una visión distorsionada de la realidad. La tarea de limpiar conjuntos de datos mediante intervención humana no sólo es costosa sino también extremadamente desafiante. Imagínese, sin embargo, si esta ardua recopilación de datos pudiera resumirse en algo tan simple como emitir un comando en lenguaje natural.

Un aspecto clave del triunfo de StableRep es el ajuste de la «escala de orientación» en el modelo generativo, que asegura un delicado equilibrio entre la diversidad y la fidelidad de las imágenes sintéticas. Cuando se afinaron, las imágenes sintéticas utilizadas para entrenar estos modelos autosupervisados resultaron ser tan efectivas, si no más, que las imágenes reales.

Yendo un paso más allá, se agregó la supervisión del idioma a la mezcla, creando una variante mejorada: StableRep+. Cuando se entrenó con 20 millones de imágenes sintéticas, StableRep+ no solo logró una precisión superior sino que también mostró una eficiencia notable en comparación con los modelos CLIP entrenados con la friolera de 50 millones de imágenes reales.

Sin embargo, el camino a seguir no está exento de baches. Los investigadores abordan abiertamente varias limitaciones, incluida la lentitud actual de generación de imágenes, los desajustes semánticos entre las indicaciones del texto y las imágenes resultantes, la posible amplificación de los sesgos y las complejidades en la atribución de imágenes, todo lo cual es imperativo abordar en futuros avances. Otro problema es que StableRep requiere entrenar primero el modelo generativo con datos reales a gran escala. El equipo reconoce que comenzar con datos reales sigue siendo una necesidad; sin embargo, cuando tiene un buen modelo generativo, puede adaptarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.

El equipo señala que aún no ha superado la necesidad de comenzar con datos reales; Resulta que una vez que tienes un buen modelo generativo, puedes reutilizarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.

Si bien StableRep ofrece una buena solución para disminuir la dependencia de grandes colecciones de imágenes reales, saca a la luz preocupaciones relacionadas con sesgos ocultos en los datos no seleccionados utilizados para estos modelos de texto a imagen. La elección de las indicaciones de texto, una parte integral del proceso de síntesis de imágenes, no está completamente libre de sesgos, «lo que indica el papel esencial de la selección meticulosa del texto o la posible curación humana», dice Fan.

“Al utilizar los últimos modelos de conversión de texto a imagen, obtenemos un control sin precedentes sobre la generación de imágenes, lo que permite una amplia gama de elementos visuales a partir de una única entrada de texto. Esto supera la recopilación de imágenes del mundo real en eficiencia y versatilidad. Es especialmente útil en tareas especializadas como equilibrar la variedad de imágenes en el reconocimiento de cola larga, presentando un complemento práctico al uso de imágenes reales para el entrenamiento”, afirma Fan. «Nuestro trabajo avanza el aprendizaje visual hacia el objetivo de ofrecer alternativas de capacitación rentables y al mismo tiempo destaca la necesidad de mejoras continuas en la calidad y síntesis de los datos».

«El sueño del aprendizaje de modelos generativos siempre ha sido poder generar datos útiles para entrenar modelos discriminativos», dice David Fleet, investigador de Google DeepMind y profesor de informática en la Universidad de Toronto, que no participó en el artículo. “Si bien hemos visto algunos signos de vida, el sueño ha sido difícil de alcanzar, especialmente en dominios complejos a gran escala como las imágenes de alta resolución. Este artículo proporciona evidencia convincente, por primera vez que yo sepa, de que el sueño se está haciendo realidad. Muestran que el aprendizaje contrastivo a partir de grandes cantidades de datos de imágenes sintéticas puede producir representaciones que superan a las aprendidas a partir de datos reales a escala, con el potencial de mejorar una gran cantidad de tareas de visión posteriores”.

A Fan se une Yonglong Tian PhD ’22 como autores principales del artículo, así como el profesor asociado de ingeniería eléctrica e informática del MIT e investigador principal de CSAIL, Phillip Isola; Huiwen Chang, investigador de Google y miembro del equipo técnico de OpenAI; y el científico investigador del personal de Google, Dilip Krishnan. El equipo presentará StableRep en la Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS) de 2023 en Nueva Orleans.