El modelo de difusión controlada puede cambiar las propiedades materiales de los objetos en imágenes.

Federico Parejamayo 28, 2024

0 15 6 minutos de lectura

El modelo de difusión controlada puede cambiar las propiedades materiales de los objetos en imágenes.

El modelo de difusión controlada puede cambiar las propiedades del material en las imágenes. — Los investigadores del MIT CSAIL ayudaron a desarrollar un modelo de difusión que puede cambiar cuatro propiedades materiales de los objetos en imágenes: rugosidad, metalicidad, albedo y transparencia. Crédito: Alex Shipps/MIT CSAIL

Es posible que investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de Google Research hayan realizado brujería digital, en forma de un modelo de difusión que puede alterar las propiedades materiales de los objetos en imágenes.

Llamado Alchemist, el sistema permite a los usuarios cambiar cuatro atributos de imágenes reales y generadas por IA: rugosidad, metalicidad, albedo (el color base inicial de un objeto) y transparencia. Como modelo de difusión de imagen a imagen, puede insertar cualquier fotografía y luego ajustar cada propiedad en una escala continua de -1 a 1 para crear una nueva apariencia. Estas capacidades de edición de fotografías podrían extenderse a la mejora de modelos en videojuegos, ampliar las capacidades de IA en efectos visuales y enriquecer los datos de entrenamiento de robótica.

La magia detrás de Alchemist comienza con un modelo de difusión de eliminación de ruido: en la práctica, los investigadores utilizaron Stable Diffusion 1.5, que es un modelo de conversión de texto a imagen elogiado por sus resultados fotorrealistas y sus capacidades de edición. Trabajos anteriores se basaron en el popular modelo para permitir a los usuarios realizar cambios de nivel superior, como intercambiar objetos o cambiar la profundidad de las imágenes. Por el contrario, el método de CSAIL y Google Research aplica este modelo para centrarse en atributos de bajo nivel, revisando los detalles más finos de las propiedades materiales de un objeto con una interfaz única basada en controles deslizantes que supera a sus contrapartes.

Mientras que los sistemas de difusión anteriores podían sacar un proverbial conejo de un sombrero para obtener una imagen, el Alquimista podía transformar ese mismo animal para que pareciera translúcido. El sistema también podría hacer que un pato de goma parezca metálico, eliminar el tono dorado de un pez dorado y lustrar un zapato viejo. Programas como Photoshop tienen capacidades similares, pero este modelo puede cambiar las propiedades del material de una manera más directa. Por ejemplo, modificar la apariencia metálica de una fotografía requiere varios pasos en la aplicación ampliamente utilizada.

«Cuando miras una imagen que has creado, a menudo el resultado no es exactamente lo que tenías en mente», dice Prafull Sharma, Ph.D. del MIT. estudiante de ingeniería eléctrica e informática, afiliado a CSAIL y autor principal de un nuevo rol describiendo la obra. «Quieres controlar la imagen mientras la editas, pero los controles existentes en los editores de imágenes no son capaces de cambiar los materiales. Con Alchemist, aprovechamos el fotorrealismo de las salidas de plantillas de texto a imagen y creamos un control deslizante que permite modificar una propiedad específica después de proporcionar la imagen inicial».

Control preciso

«Los modelos generadores de texto a imagen han permitido a los usuarios cotidianos generar imágenes tan fácilmente como escribir una oración. Sin embargo, controlar estos modelos puede ser un desafío», dijo Jun-Yan Zhu, profesor asistente de la Universidad Carnegie Mellon, que no participó en el artículo. .

«Si bien generar un jarrón es simple, sintetizar un jarrón con propiedades materiales específicas, como transparencia y rugosidad, requiere que los usuarios pasen horas probando diferentes mensajes de texto y semillas aleatorias. Esto puede resultar frustrante, especialmente para los usuarios profesionales que exigen precisión en su trabajo. Alchemist presenta una solución práctica a este desafío, que permite un control preciso sobre los materiales de una imagen de entrada y al mismo tiempo aprovecha los antecedentes basados en datos de modelos de difusión a gran escala, inspirando trabajos futuros para incorporar sin problemas modelos generativos en las interfaces existentes de software de creación de contenido de uso común». continuó Zhu.

Las capacidades de diseño de Alchemist podrían ayudar a modificar la apariencia de diferentes modelos en los videojuegos. La aplicación de un modelo de difusión de este tipo en este ámbito podría ayudar a los creadores a acelerar su proceso de diseño refinando las texturas para adaptarlas a la jugabilidad de un nivel. Además, el proyecto de Sharma y su equipo podría ayudar a alterar elementos de diseño gráfico, vídeos y efectos cinematográficos para mejorar el fotorrealismo y lograr con precisión el aspecto deseado del material.

El método también podría refinar los datos de entrenamiento robótico para tareas como la manipulación. Al presentarles a las máquinas más texturas, podrán comprender mejor los diferentes elementos que comprenderán en el mundo real. Alchemist puede incluso ayudar con la clasificación de imágenes analizando dónde una red neuronal no reconoce los cambios materiales en una imagen.

El trabajo del equipo superó a modelos similares al editar fielmente solo el objeto de interés solicitado. Por ejemplo, cuando un usuario solicitó que diferentes modelos ajustaran un delfín para lograr la máxima transparencia, solo el Alquimista logró esta hazaña, dejando el paisaje del océano sin editar. Cuando los investigadores entrenaron el modelo de difusión comparable InstructPix2Pix con los mismos datos que su método de referencia, descubrieron que Alchemist logró puntuaciones de precisión superiores. De manera similar, un estudio de usuarios reveló que se prefería el modelo del MIT y se lo consideraba más fotorrealista que su contraparte.

Manteniéndolo real con datos sintéticos

Según los investigadores, recopilar datos reales no era práctico. En lugar de eso, entrenaron su modelo en un conjunto de datos sintéticos, editando aleatoriamente los atributos de 1200 materiales aplicados a 100 objetos 3D únicos y disponibles públicamente en Blender, una popular herramienta de diseño de gráficos por computadora.

«Hasta ahora, el control de la síntesis de imágenes generativas de IA ha estado limitado por lo que el texto puede describir», dice Frédo Durand, profesor de Computación Amar Bose en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y miembro de CSAIL. un autor principal del artículo. «Este trabajo abre un control nuevo y más refinado para los atributos visuales heredados de décadas de investigación en gráficos por computadora».

«Alchemist es el tipo de técnica necesaria para hacer que los modelos de difusión y aprendizaje automático sean prácticos y útiles para la comunidad CGI y los diseñadores gráficos», añade Mark Matthews, ingeniero de software senior y coautor de Google Research. «Sin él, estás atrapado en este tipo de estocasticidad incontrolable. Tal vez sea divertido por un tiempo, pero en algún momento, tienes que hacer un trabajo real y hacerlo obedecer a una visión creativa».

El último proyecto de Sharma llega un año después de que dirigiera una investigación sobre Materialistic, un método de aprendizaje automático que puede identificar materiales similares en una imagen. Este trabajo anterior demostró cómo los modelos de IA pueden refinar sus capacidades de comprensión de materiales y, al igual que Alchemist, se ajustó en un conjunto de datos sintéticos de modelos 3D de Blender.

Aún así, Alchemist tiene algunas limitaciones en este momento. El modelo tiene dificultades para inferir correctamente la iluminación, por lo que en ocasiones no sigue las entradas del usuario. Sharma señala que este método a veces también genera transparencias físicamente inverosímiles. Imagina una mano parcialmente dentro de una caja de cereal, por ejemplo: en la configuración máxima de Alchemist para este atributo, verías un recipiente transparente sin que tus dedos lo alcancen.

A los investigadores les gustaría ampliar cómo un modelo de este tipo podría mejorar las capacidades 3D para gráficos a nivel de escena. Además, el Alquimista podría ayudar a inferir propiedades materiales a partir de imágenes. Según Sharma, este tipo de trabajo podría desbloquear vínculos entre las características visuales y mecánicas de los objetos en el futuro.

William T. Freeman, profesor del MIT EECS y miembro de CSAIL, también es autor principal y se une a Varun Jampani y los científicos de Google Research Yuanzhen Li, Ph.D., Xuhui Jia y Dmitry Lagun. El trabajo del grupo será destacado en el CVPR en junio.

Mas informaciones:
Prafull Sharma y otros, Alchemist: Control paramétrico de propiedades de materiales con modelos de difusión (2024)

Proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se republica por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio web popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.

Cita: El modelo de difusión controlada puede cambiar las propiedades materiales de los objetos en imágenes (2024, 28 de mayo) recuperado el 28 de mayo de 2024 de https://techxplore.com/news/2024-05-diffusion-material-properties-images.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de investigación o estudio privado, ninguna parte puede reproducirse sin permiso por escrito. El contenido se proporciona únicamente con fines informativos.