Una nueva técnica puede automatizar la curación de datos para el entrenamiento previo autosupervisado de conjuntos de datos de IA

Federico Parejajunio 3, 2024

0 6 2 minutos de lectura

Una nueva técnica puede automatizar la curación de datos para el entrenamiento previo autosupervisado de conjuntos de datos de IA

Técnica novedosa para automatizar la curación de datos para el entrenamiento previo autosupervisado de conjuntos de datos de IA — Una descripción general del proceso de curación de datos. Los grandes conjuntos de datos a menudo exhiben una distribución de conceptos de cola larga. Aplicamos k-medias jerárquicas para obtener grupos que se distribuyan uniformemente entre conceptos. Luego se toman muestras de los puntos de datos de los grupos para formar un conjunto de datos seleccionado que tenga un mejor equilibrio de conceptos. Crédito: *arXiv* (2024). DOI: 10.48550/arxiv.2405.15613

Un equipo de informáticos e investigadores de IA de FAIR en Meta, INRIA, la Universidad Paris Saclay y Google ha desarrollado un posible medio para automatizar la curación de datos para el entrenamiento previo autosupervisado de conjuntos de datos de IA.

El grupo escribió un artículo que describe su proceso de desarrollo, la técnica que desarrollaron y qué tan bien ha funcionado hasta ahora durante las pruebas. Eso es al corriente en el arXiv servidor de preimpresión.

Como aprendieron los desarrolladores y usuarios durante el año pasado, la calidad de los datos utilizados para entrenar sistemas de IA está estrechamente relacionada con la precisión de los resultados. Actualmente, los mejores resultados se obtienen con sistemas que utilizan datos curados manualmente y los peores se obtienen con sistemas sin curación.

Desafortunadamente, seleccionar datos manualmente requiere mucho tiempo y esfuerzo. Por lo tanto, los informáticos han estado buscando formas de automatizar el proceso. En este nuevo estudio, el equipo de investigación desarrolló una técnica que hace precisamente eso y de una manera que rivaliza con la curación manual.

La nueva técnica comienza con un gran conjunto de datos y luego realiza un proceso de tres pasos que da como resultado datos más diversos y equilibrados.

El primer paso implica el uso de un modelo de extracción de características que calcula ubicaciones de alta calidad para incorporar puntos de datos. En su enfoque, los elementos incrustados son números que representan características de diferentes tipos de datos, como texto, audio o imágenes.

El segundo paso implica el uso de agrupaciones sucesivas de k-medias, donde los puntos de datos se asignan a un grupo en función de su similitud con otros puntos de datos.

El tercer paso implica el uso de agrupaciones jerárquicas de k-medias de varios pasos para garantizar que los grupos de datos estén equilibrados. Esto se logra construyendo árboles de clústeres de datos de abajo hacia arriba.

El equipo de investigación probó su técnica utilizando modelos de visión entrenados en varios tipos de conjuntos de datos. Descubrieron que los modelos que utilizaban su técnica superaban a los que utilizaban datos no seleccionados y eran tan buenos o, a veces, mejores que los entrenados con datos seleccionados manualmente.

Será necesario realizar más pruebas para descubrir qué tan bien funciona su técnica con datos del mundo real y diferentes tipos de sistemas de inteligencia artificial.

Mas informaciones:
Huy V. Vo et al, Conservación automática de datos para el aprendizaje autosupervisado: un enfoque basado en agrupaciones, arXiv (2024). DOI: 10.48550/arxiv.2405.15613

Información del diario:
arXiv

Cita: La nueva técnica puede automatizar la curación de datos para el entrenamiento previo autosupervisado de conjuntos de datos de IA (2024, 3 de junio) recuperado el 3 de junio de 2024 de https://techxplore.com/news/2024-06-technique -automate-curation-pre – ai.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de investigación o estudio privado, ninguna parte puede reproducirse sin permiso por escrito. El contenido se proporciona únicamente con fines informativos.