Los investigadores desarrollan IA para hacer que Internet sea más accesible
Newswise – COLUMBUS, Ohio – En un esfuerzo por hacer que Internet sea más accesible para las personas con discapacidades, investigadores de la Universidad Estatal de Ohio comenzaron a desarrollar un agente de inteligencia artificial que podía realizar tareas complejas en cualquier sitio web utilizando comandos de lenguaje simples.
En las tres décadas transcurridas desde su lanzamiento al dominio público, la World Wide Web se ha convertido en un sistema increíblemente complejo y dinámico. Sin embargo, debido a que la función de Internet es hoy tan esencial para el bienestar de la sociedad, su complejidad también hace que su navegación sea considerablemente más difícil.
Hoy en día, hay miles de millones de sitios web disponibles para ayudarle a acceder a información o comunicarse con otras personas, y muchas tareas en Internet pueden requerir más de una docena de pasos para completarse. Y por eso yu su, coautor del estudio y profesor asistente de Ciencia computacional e ingeniería en Ohio State, dijo que su trabajo, que utiliza información extraída de sitios web activos para crear agentes web (ayudantes de IA en línea) es un paso para hacer del mundo digital un lugar menos confuso.
«Para algunas personas, especialmente aquellas con discapacidades, no es fácil navegar por Internet», dijo Su. «Confiamos cada vez más en el mundo de la informática en nuestra vida diaria y en el trabajo, pero cada vez hay más barreras a este acceso, lo que, en cierta medida, aumenta la disparidad».
El estudio fue presentado en diciembre en Trigésimo Séptimo Congreso sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS)una conferencia emblemática para la investigación de inteligencia artificial y aprendizaje automático.
Al aprovechar el poder de los grandes modelos de lenguaje, el agente funciona de manera similar a cómo se comportan los humanos cuando navegan por la web, dijo Su. El equipo de Ohio State demostró que su modelo era capaz de comprender el diseño y la funcionalidad de diferentes sitios web utilizando únicamente su capacidad para procesar y predecir el lenguaje.
Los investigadores comenzaron el proceso creando mente2web, el primer conjunto de datos para agentes web generalistas. Si bien los esfuerzos anteriores para crear agentes web se han centrado en sitios web simulados con juguetes, Mind2Web adopta plenamente la naturaleza compleja y dinámica de los sitios web del mundo real y enfatiza la capacidad de un agente para generalizar a sitios web completamente nuevos que nunca antes había visto. Su dijo que gran parte de su éxito se debe a la capacidad de su agente para lidiar con la curva de aprendizaje en constante evolución de Internet. El equipo reunió más de 2000 tareas abiertas de 137 sitios web diferentes del mundo real, que utilizaron para capacitar al agente.
Algunas de las tareas incluían reservar vuelos internacionales de ida y vuelta, seguir cuentas de Twitter de celebridades, buscar películas de comedia de 1992 a 2017 transmitidas en Netflix e incluso programar pruebas de conocimientos sobre automóviles en el DMV. Muchas de las tareas eran muy complejas; por ejemplo, reservar uno de los vuelos internacionales utilizados en el modelo requeriría 14 acciones. Esta versatilidad sin esfuerzo permite una cobertura diversa en múltiples sitios y abre un nuevo panorama para que futuros modelos exploren y aprendan de forma autónoma, dijo Su.
«Sólo fue posible hacer algo como esto gracias al reciente desarrollo de grandes modelos de lenguaje como ChatGPT», dijo Su. Desde que el chatbot se hizo público en noviembre de 2022, Millones de usuarios lo han utilizado para generar contenido automáticamente desde poesía y chistes para consejos de cocina Es diagnósticos médicos.
Aún así, debido a que un sitio web puede contener miles de elementos HTML sin procesar, sería muy costoso introducir tanta información en un único modelo de lenguaje grande. Para cerrar esta brecha, el estudio también presenta un marco llamado MindAct, un agente dual que utiliza modelos de lenguaje pequeños y grandes para realizar estas tareas. El equipo descubrió que al utilizar esta estrategia, MindAct supera significativamente otras estrategias de modelado comunes y es capaz de comprender varios conceptos a un nivel decente.
Con más ajustes, señala el estudio, el modelo probablemente podría usarse junto con grandes modelos de lenguaje de código abierto y cerrado, como Flan-T5 o GPT-4. Sin embargo, su trabajo resalta un problema ético cada vez más relevante en la creación de inteligencia artificial flexible, dijo Su. Si bien ciertamente puede servir como un agente útil para los humanos que navegan por la web, el modelo también podría usarse para mejorar sistemas como ChatGPT y transformar todo Internet en una herramienta poderosa sin precedentes, dijo Su.
«Por un lado, tenemos un gran potencial para mejorar nuestra eficiencia y permitirnos centrarnos en la parte más creativa de nuestro trabajo», afirmó. «Pero, por otro lado, existe un tremendo potencial de daño». Por ejemplo, agentes autónomos capaces de traducir los pasos en línea al mundo real podrían influir en la sociedad tomando acciones potencialmente peligrosas, como el uso indebido de información financiera o la divulgación de información errónea.
«Debemos ser extremadamente cautelosos con estos factores y hacer un esfuerzo concertado para tratar de mitigarlos», dijo Su. Pero a medida que la investigación de la IA continúa evolucionando, señala que es probable que la sociedad experimente un crecimiento importante en el uso comercial y el rendimiento de los agentes web generalistas en los próximos años, especialmente porque la tecnología ya ha ganado tanta popularidad ante el público.
«A lo largo de mi carrera, mi objetivo siempre ha sido intentar cerrar la brecha entre los usuarios humanos y el mundo de la informática», dijo Su. «Dicho esto, el valor real de esta herramienta es que realmente ahorrará tiempo a las personas y hará posible lo imposible».
La investigación contó con el apoyo de la Fundación Nacional de Ciencias, el Laboratorio de Investigación del Ejército de EE. UU. y el Centro de Supercomputadoras de Ohio. Otros coautores fueron Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang y Huan Sun, todos del estado de Ohio.
#