Cuando hordas de pequeños chatbots de IA son más útiles que gigantes como ChatGPT
La IA se está desarrollando rápidamente. ChatGPT se ha convertido en el servicio en línea de más rápido crecimiento en Historia. Google y Microsoft están integrando IA generativa en sus productos. Y los líderes mundiales están adoptando con entusiasmo la IA como herramienta para el crecimiento económico.
A medida que avancemos más allá de ChatGPT y Bard, probablemente veremos que los chatbots de IA se vuelven menos genéricos y más especializados. Las IA están limitadas por los datos a los que están expuestas para mejorar su desempeño (en este caso, imitar el habla humana y brindar a los usuarios respuestas útiles).
El entrenamiento a menudo arroja una red amplia, con Sistemas de inteligencia artificial que absorben miles de libros y páginas web. Pero un conjunto de datos de capacitación más seleccionados y enfocados podría hacer que los chatbots de IA sean aún más útiles para las personas que trabajan en determinadas industrias o viven en determinadas áreas.
El valor de los datos.
Un factor importante en esta evolución serán los crecientes costos de acumular datos de entrenamiento para modelos avanzados de lenguajes grandes (LLM), el tipo de IA que impulsa ChatGPT. Las empresas saben que los datos son valiosos: Meta y Google ganan miles de millones vendiendo anuncios dirigidos a los datos de los usuarios. Pero el valor de los datos ahora es cambiando. Meta y Google venden “insights” de datos; invierten en análisis para convertir muchos puntos de datos en predicciones sobre los usuarios.
Los datos son valiosos para OpenAI (el desarrollador de ChatGPT) de una manera sutilmente diferente. Imagínese un tweet: «El gato se sentó en la alfombra». Este tweet no es valioso para los anunciantes específicos. Dice poco sobre un usuario o sus intereses. Quizás, de un solo golpe, podría sugerir un interés en la comida para gatos y en el Dr. Suess.
Pero para OpenAI, que está creando LLM para producir un lenguaje similar al humano, este tweet es valioso como ejemplo de cómo funciona el lenguaje humano. Un solo tweet no puede enseñarle a una IA cómo construir oraciones, pero miles de millones de tweets, publicaciones de blogs, entradas de Wikipedia, etc., ciertamente sí pueden. Por ejemplo, el LLM avanzado GPT-4 probablemente se creó utilizando datos extraídos de X (anteriormente Twitter), Reddit, Wikipedia y otros.
La revolución de la IA está cambiando el modelo de negocio de las organizaciones ricas en datos. Empresas como Meta y Google han sido invertir en investigación y desarrollo de IA durante varios años mientras intentan explotar sus recursos de datos.
Organizaciones como X Es Reddit comenzó a cobrar a terceros por el acceso a la API, el sistema utilizado para extraer datos de estos sitios. La recopilación de datos cuesta a empresas como debería gastar más en potencia informática para atender consultas de datos.
En el futuro, a medida que organizaciones como OpenAI busquen construir versiones más potentes de sus modelos GPT, enfrentarán mayores costos de adquisición de datos. Una solución a este problema podría ser el uso de datos sintéticos.
Volverse sintético
Los datos sintéticos son creado desde cero por sistemas de IA entrenar sistemas de IA más avanzados para mejorarlos. Están diseñados para realizar la misma tarea que los datos de entrenamiento reales, pero son generados por IA.
Es una idea nueva, pero enfrenta muchos problemas. Es necesario disponer de buenos datos sintéticos. suficientemente diferente de los datos originales se basa en decir algo nuevo al modelo, y al mismo tiempo ser lo suficientemente similar como para decir algo preciso. Esto puede ser difícil de lograr. ¿Dónde están los datos sintéticos? solo copias convincentes de datos del mundo real, los modelos de IA resultantes pueden tener problemas con la creatividad, afianzando los sesgos existentes.
Otro problema es el El problema de la “IA de los Habsburgo”. Esto sugiere que entrenar IA con datos sintéticos provocará una disminución en la efectividad de estos sistemas; de ahí la analogía con la infame endogamia de la familia real de los Habsburgo. Algunos estudios Sugieren que esto ya está sucediendo con sistemas como ChatGPT.
Una de las razones por las que ChatGPT es tan bueno es porque utiliza Aprendizaje reforzado con retroalimentación humana. (RLHF), donde las personas evalúan sus resultados en términos de precisión. Si los datos sintéticos generados por una IA contienen imprecisiones, los modelos de IA entrenados con esos datos serán inexactos. Por lo tanto, es probable que aumente la demanda de retroalimentación humana para corregir estas imprecisiones.
Sin embargo, aunque la mayoría de las personas son capaces de decir si una oración es gramaticalmente correcta, menos personas podrían comentar sobre su precisión fáctica, especialmente cuando el resultado es técnico o especializado. Es menos probable que RLHF detecte resultados inexactos sobre temas especializados. Si los datos sintéticos significan que hay más imprecisiones que capturar, la calidad de los LLM de propósito general podría estancarse o disminuir, incluso cuando estos modelos “aprendan” más.
Pequeños modelos de lenguaje
Estos problemas ayudan a explicar algunas tendencias emergentes en la IA. Los ingenieros de Google revelaron que hay pocas cosas que impidan que terceros recreando LLM como GPT-3 o LaMDA AI de Google. Muchas organizaciones podrían construir sus propios sistemas internos de IA, utilizando sus propios datos especializados, para sus propios fines. Probablemente serán más valiosos para estas organizaciones que ChatGPT a largo plazo.
Recientemente, el gobierno japonés señaló que el desarrollo de un Versión de ChatGPT centrada en Japón es potencialmente útil para su estrategia de IA, ya que ChatGPT no es suficientemente representativo de Japón. SAP lanzó recientemente su “hoja de ruta” de IA Ofrecer capacidades de desarrollo de IA a organizaciones profesionales. Esto facilitará a las empresas la creación de sus propias versiones personalizadas de ChatGPT.
Consultorías como McKinsey Es KPMG están explorando el entrenamiento de modelos de IA para “fines específicos”. Guías sobre cómo crear versiones privadas y personales de ChatGPT se puede encontrar fácilmente en línea. Sistemas de código abierto como GPT4Todosya existe.
A medida que aumentan los desafíos de desarrollo (junto con los posibles obstáculos regulatorios) para los LLM genéricos, es posible que el futuro de la IA esté compuesto por muchos modelos de lenguaje pequeños y específicos en lugar de grandes. Los modelos de lenguajes pequeños pueden tener dificultades si se entrenan con menos datos que sistemas como GPT-4.
Pero también pueden tener una ventaja en términos de RLHF, ya que es probable que se desarrollen pocos modelos de lenguaje para propósitos específicos. Los empleados que tienen conocimientos especializados de su organización y sus objetivos pueden proporcionar comentarios mucho más valiosos a estos sistemas de IA en comparación con los comentarios genéricos para un sistema de IA genérico. Esto puede superar las desventajas de tener menos datos.
Este artículo fue republicado desde La conversación bajo una licencia Creative Commons. Leer el artículo original.
Credito de imagen: Mohamed Nohassi / Quitar salpicadura