Conozca Pix2Video: un enfoque de IA guiado por texto sin capacitación que simplifica la edición de video utilizando modelos de difusión de imágenes
El desarrollo de modelos de generación de texto a imagen es uno de los mayores avances de la Inteligencia Artificial. DALLE 2, el modelo recientemente desarrollado presentado por OpenAI, crea maravillosas imágenes a partir de descripciones textuales o indicaciones. Este modelo de difusión aprende a producir datos invirtiendo un proceso de ruido gradual. Usando el modelado de difusión, el modelo funciona arruinando las imágenes e intentando reconstruirlas. Actualmente, varias de estas plantillas tienen la capacidad de generar una nueva imagen a partir de una explicación textual y también editar una imagen existente.
Con la creciente popularidad de los modelos de difusión de imágenes para generar imágenes diversas y de alta calidad, se están introduciendo muchos métodos y desarrollos nuevos. Estas plantillas invierten imágenes reales, así como imágenes de salida basadas en indicaciones textuales, lo que las hace adecuadas para diferentes aplicaciones de edición de imágenes. En un artículo reciente, los investigadores propusieron un enfoque llamado Pix2Video que puede realizar la edición de video mediante la difusión de imágenes. Se han realizado investigaciones sobre cómo usar plantillas de imágenes previamente entrenadas para la edición de videos en función de indicaciones de texto. Su propósito es editar un video conservando el contenido y los detalles importantes del video.
El equipo propuso una metodología de dos pasos. En primer lugar, se utiliza un modelo de difusión de imágenes guiado por fotogramas previamente entrenado para realizar ediciones guiadas por texto en un fotograma ancla. En segundo lugar, el equipo introdujo un paso clave en el que propagan progresivamente los cambios a los marcos futuros mediante una técnica llamada inyección de características de autoatención. La autoatención es básicamente un mecanismo que permite que un modelo pondere el significado de diferentes partes de una secuencia de entrada al procesarla. Luego, este mecanismo se usa para regular qué partes del marco de anclaje deben propagarse a marcos futuros y cómo adaptar el paso de reducción de ruido del modelo de difusión para lograrlo.
Pix2Video no requiere capacitación, ya que no requiere capacitación adicional ni datos de preprocesamiento. Es versátil y se puede aplicar a una amplia gama de ediciones de video. Pix2Video se evaluó en varios videoclips reales que demostraban ediciones locales y globales. Se ha comparado con varios enfoques de vanguardia y se ha realizado igual o mejor. Aparentemente se desempeñó bien sin la necesidad de ningún método de preprocesamiento intensivo de cómputo o enfoque de ajuste fino específico de video.
Los investigadores evaluaron Pix2Video en un conjunto de datos llamado DAVIS, que consta de videos con 50 a 82 fotogramas. Pix2Video se comparó con otros tres métodos: el primer método, propuesto por Jamriska et al., propaga el estilo de un conjunto de cuadros dados al videoclip de entrada. El segundo método, Text2Live, es un método reciente de edición de video basado en texto. El tercer método, SDEdit, agrega ruido a cada cuadro de entrada y lo elimina en función de la solicitud de edición. El equipo demostró cómo Pix2Video logra un buen equilibrio entre respetar la edición y mantener la consistencia temporal sin necesidad de capacitación. Supera a los métodos de referencia en cuanto a coherencia temporal, puntuación CLIP-Image y Pixel-MSE. Para concluir. Pix2Video es un enfoque innovador para la edición de video guiada por texto y parece prometedor.
Compruebe el Papel Es Proyecto. Todo el crédito por esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestro SubReddit de 16k+ ML, canal de discordiaEs noticias por correo electrónicodonde compartimos las últimas noticias de investigación de IA, emocionantes proyectos de IA y más.
Tanya Malhotra es estudiante de último año en la Universidad de Estudios de Petróleo y Energía, Dehradun, y estudia BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con buen pensamiento analítico y crítico, así como un gran interés en adquirir nuevas habilidades, liderar grupos y administrar el trabajo de manera organizada.