Apple abre el código fuente del modelo de lenguaje de mil millones de parámetros OpenELM

Federico Parejamayo 14, 2024

0 14 2 minutos de lectura

Apple abre el código fuente del modelo de lenguaje de mil millones de parámetros OpenELM

Apple lanzó AbrirELM, un modelo de lenguaje basado en Transformer. OpenELM utiliza un mecanismo de atención escalonada para una asignación de parámetros más eficiente y supera a los modelos de tamaño similar mientras Requerir menos tokens para el entrenamiento..

Junto con el modelo, Apple lanzó su marco completo, incluida la preparación de datos y el código de entrenamiento. Debido a que OpenELM se entrenó exclusivamente con datos disponibles públicamente, cualquiera puede reproducir completamente el modelo. Los investigadores entrenaron cuatro tamaños de modelos: parámetros 270M, 450M, 1.1B y 3B; cada uno está disponible en una variante básica y ajustada a las instrucciones. Los experimentos del equipo de investigación muestran que las variantes adaptadas a las instrucciones logran entre 1 y 2 puntos porcentuales un mejor rendimiento en los puntos de referencia. Según Apple,

A diferencia de prácticas anteriores que solo proporcionan pesos de modelo e inferencia y código de preentrenamiento en conjuntos de datos privados, nuestra versión incluye el marco completo para el entrenamiento y evaluación de modelos de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y ajustes preestablecidos de entrenamiento. También publicamos código para convertir modelos a la biblioteca MLX para realizar inferencias y realizar ajustes en dispositivos Apple. Esta versión integral tiene como objetivo empoderar y fortalecer la comunidad de investigación abierta, allanando el camino para futuros esfuerzos de investigación abierta.

Una característica importante de OpenELM es la programación de atención en capas. A diferencia de la mayoría de los modelos basados en Transformer, que usan la misma cantidad de dimensiones y parámetros en cada capa, OpenELM usa menos en las capas «inferiores» (más cercanas a la entrada) y más en las capas superiores. Esto le da al modelo una mayor precisión para un número total determinado de parámetros.

OpenELM está capacitado en una combinación de conjuntos de datos disponibles públicamente, incluidos La pila Es pijama rojo. En total, la mezcla previa al entrenamiento contiene alrededor de 1,8 billones de tokens. Para el ajuste de instrucción, el equipo utilizó Ultrafeedback, un conjunto de datos disponible públicamente de 60.000 indicaciones. El algoritmo de ajuste utilizó muestreo de rechazo y optimización de preferencias directas.

Los investigadores de Apple evaluaron OpenELM usando Arnés de prueba LMmedir su desempeño en una variedad de tareas, incluidas tareas de razonamiento con sentido común y comprensión del lenguaje. Tabla de clasificación OpenLLM. El equipo comparó su modelo con varios modelos con recuentos de parámetros similares, incluidos MobiLlama Es Olmo. OpenELM superó a estos modelos base hasta en 2,35 puntos porcentuales, a pesar de que Apple utilizó «el doble de datos previos al entrenamiento». Los resultados de OpenELM no se han informado en la tabla de clasificación de OpenLLM, pero los datos de los experimentos de Apple muestran que estarían cerca de los 10 primeros resultados actuales.

Boletín de inteligencia artificial de Andrew Ng, The Batch, OpenELM resaltado. Ng señaló que el modelo «no alcanzó el MMLU», obteniendo sólo un puntaje ligeramente mejor que el azar:

Para ser justos, los otros modelos elegidos para comparar no tuvieron un rendimiento mucho mejor. Es posible que los datos disponibles públicamente no sean suficientes para aprender cómo resolver el MMLU. En comparación, el Phi-3-mini de Microsoft (3.800 millones de parámetros entrenados en datos web filtrados por “nivel educativo” más los datos generados) logró una precisión del 68,8%.

En una discusión sobre OpenELm en Reddit, un usuario señaló qué:

La portabilidad y el aislamiento es de donde proviene el valor de esto. Ahora las empresas pueden entrenar modelos sin esencialmente proporcionar datos a terceros.

oh Código abierto ELM está disponible en GitHub, mientras que el pesos modelo están disponibles en Huggingface.