La actualización de Stability AI a Stability AI permite la producción completa de canciones a partir de texto o audio

Federico Parejaabril 4, 2024

0 13 4 minutos de lectura

La actualización de Stability AI a Stability AI permite la producción completa de canciones a partir de texto o audio

El desarrollador de inteligencia artificial Stability AI ha presentado Stable Audio 2.0, la próxima versión de su sistema de generación de texto a música.

A versão mais recente ajuda artistas e músicos com uma gama mais ampla de ferramentas criativas e a capacidade de produzir faixas musicais completas “com estrutura musical tradicional e alta qualidade de áudio” usando instruções em linguagem natural, informou a empresa na quarta-feira (3 de abril).

Stable Audio 1.0, lanzado en septiembre pasado, llamó la atención por su capacidad de crear clips de audio cortos basados en descripciones textuales. Fue nombrado uno de los Los mejores inventos de TIME de 2023.

La nueva versión amplía esa base, permitiendo a los usuarios generar canciones completas de hasta tres minutos de duración en Estéreo de 44,1 kHz. Este período de tiempo extendido abre la puerta a una mayor variedad de creaciones musicales, desde instrumentales completos hasta composiciones estructuradas con introducciones, secciones de desarrollo y más.

«Stable Audio 2.0 establece un nuevo estándar en audio generado por IA», dijo Stability AI en una publicación de blog. “El nuevo modelo introduce la generación de audio a audio, lo que permite a los usuarios cargar y transformar muestras utilizando instrucciones en lenguaje natural.

Además de una mayor duración, Stable Audio 2.0 también ofrece otras características, incluidas nuevas capacidades de “audio a audio” que permiten a los usuarios cargar sus propias muestras de audio para definir el estilo y el sonido de las salidas generadas por IA.

«Con indicaciones de texto a audio y de audio a audio, los usuarios pueden producir melodías, pistas de acompañamiento, temas y efectos de sonido, mejorando así el proceso creativo».

Estabilidad IA

“Nuestro modelo de audio más avanzado hasta el momento amplía el conjunto de herramientas creativas para artistas y músicos con sus nuevas funciones. Con indicaciones de texto a audio y de audio a audio, los usuarios pueden producir melodías, pistas de acompañamiento, temas y efectos de sonido, mejorando así el proceso creativo”, dijo Stability AI.

El lanzamiento de Stable Audio 2.0 se produce en medio de un período de cambios internos en Stability AI. Ed Newton-Rexex vicepresidente de audio de la empresa, recientemente se fue debido a desacuerdos sobre el uso de materiales protegidos por derechos de autor en conjuntos de datos de capacitación.

“Empresas que valen miles de millones de dólares están entrenando, sin permiso, modelos de IA generativa sobre el trabajo de los creadores, que luego se utilizan para crear contenido nuevo que, en muchos casos, puede competir con el trabajo original. No veo cómo esto puede ser aceptable en una sociedad que ha configurado la economía de las artes creativas de tal manera que los creadores dependen de los derechos de autor”, dijo Newton-Rex, quien ayudó a desarrollar Stable Audio, en una carta pública de renuncia. Desde entonces, ha lanzado una iniciativa para evaluar y certificar modelos de IA basados en el respeto de los derechos de los creadores.

Stability AI abordó las preocupaciones de derechos de autor sobre su desarrollo de IA, diciendo que «Stable Audio 2.0 se entrenó exclusivamente en un conjunto de datos con licencia de AudioSparx biblioteca de música, cumpliendo con las solicitudes de eliminación y garantizando una compensación justa a los creadores”.

El modelo 1.0 también fue entrenado usando datos de AudioSparxque consta de más 800.000 Archivos de audio que contienen música, efectos de sonido y derivaciones de un solo instrumento y los metadatos de texto correspondientes.

“Stable Audio 2.0 es una de las herramientas de música generativa de IA más poderosas y flexibles disponibles y permite a músicos, productores y otros creadores utilizar la IA como una herramienta colaborativa para la composición musical, la experimentación de audio y la creación de contenido, como nunca antes. .”

Estabilidad IA

La actualización también integró Magia audible para comprobar las cargas de audio en busca de infracciones de derechos de autor. Audible Magic ofrece tecnología de reconocimiento de contenido para ayudar con la coincidencia de contenido en tiempo real para evitar la infracción de derechos de autor.

Stable Audio 2.0 también presenta características como Transferencia de estilo para combinar audio generado o enviado con pistas existentes, creando SFX y variaciones.

“Stable Audio 2.0 es una de las herramientas de música generativa de IA más poderosas y flexibles disponibles y permite a músicos, productores y otros creadores utilizar la IA como una herramienta colaborativa para la composición musical, la experimentación de audio y la creación de contenido, como nunca antes. ”, dijo Stability AI en un comunicado.

Stability AI también proporciona detalles técnicos sobre la arquitectura del modelo, explicando su efectividad para generar composiciones musicales de alta calidad.

“Un nuevo codificador automático altamente comprimido comprime formas de onda de audio sin procesar en representaciones mucho más cortas. Para el modelo de difusión, empleamos un transformador de difusión (DiT), similar al utilizado en Difusión estable 3en lugar del U-Net anterior, ya que es más adecuado para manejar datos en secuencias largas.

«La combinación de estos dos elementos da como resultado un modelo capaz de reconocer y reproducir las estructuras a gran escala esenciales para composiciones musicales de alta calidad».

El nuevo modelo está disponible para uso gratuito en Stable Audio sitio web y pronto estará disponible en API de audio estable.

También se lanzó la IA de estabilidad radio estableuna transmisión en vivo las 24 horas del día, los 7 días de la semana que presenta pistas generadas por Stable Audio.

El negocio de la música en el mundo