¿3D para todos? Magic3D de Nvidia puede generar modelos 3D a partir de texto

Federico Parejanoviembre 21, 2022

0 4 2 minutos de lectura

Extender 🇧🇷 Una rana dardo venenosa renderizada como modelo 3D por Magic3D.

nvidia

El viernes, los investigadores de Nvidia anunciaron Magia3D, un modelo de IA que puede generar modelos 3D a partir de descripciones de texto. Después de ingresar un mensaje como «Una rana dardo venenosa azul sentada en un nenúfar», Magic3D genera un modelo de malla 3D, completo con textura coloreada, en aproximadamente 40 minutos. Con modificaciones, el modelo resultante se puede usar en videojuegos o escenas de arte CGI.

en su trabajo académicoNvidia enmarca Magic3D como respuesta a SueñoFusión, una plantilla de texto en 3D que los investigadores de Google anunciaron en septiembre. Similar a cómo DreamFusion usa una plantilla de texto a imagen para generar una imagen 2D con volumen optimizado NeRF (Neural Radiance Field), Magic3D utiliza un proceso de dos etapas que toma un modelo tosco generado a baja resolución y lo optimiza para una resolución más alta. Según los autores del artículo, el método Magic3D resultante puede generar objetos 3D dos veces más rápido que DreamFusion.

Magic3D también puede realizar la edición basada en indicaciones de mallas 3D. Dado un modelo 3D de baja resolución y un mensaje básico, puede cambiar el texto para modificar el modelo resultante. Además, los autores de Magic3D demuestran la preservación del mismo tema durante varias generaciones (un concepto que a menudo se denomina coherencia) y la aplicación del estilo de una imagen 2D (como una pintura cubista) a un modelo 3D.

Nvidia no ha publicado ningún código Magic3D junto con su trabajo académico.

La capacidad de generar 3D a partir de texto parece una evolución natural en los modelos de difusión actuales, que utilizan redes neuronales para sintetizar contenido nuevo después de un entrenamiento intenso en un cuerpo de datos. Recién en 2022 asistimos al surgimiento de modelos capaces de transformar texto en imagen, como DALL-E y difusión estable y rudimentarios generadores de videotexto de Google y meta🇧🇷 Google también lanzó la plantilla de texto DreamFusion 3D antes mencionada hace dos meses, y desde entonces la gente ha estado técnicas similares adaptadas para trabajar como un modelo de código abierto basado en Stable Diffusion.

En cuanto a Magic3D, los investigadores que lo respaldan esperan que permita a cualquier persona crear modelos 3D sin necesidad de capacitación especial. Una vez refinada, la tecnología resultante podría acelerar el desarrollo de videojuegos (y VR) y quizás eventualmente encontrar aplicaciones en efectos especiales de cine y televisión. Cerca del final de su artículo, escriben: «Esperamos que con Magic3D podamos democratizar la síntesis 3D y abrir la creatividad de todos en la creación de contenido 3D».