Cloudflare permite a los sitios web bloquear robots de IA con una solución de un clic

Federico Parejajulio 6, 2024

0 18 4 minutos de lectura

Cloudflare permite a los sitios web bloquear robots de IA con una solución de un clic

Tela de araña

pixabay

Un nuevo problema para los propietarios de sitios web en esta era en la que la inteligencia artificial está cambiando el panorama digital son los robots de inteligencia artificial que eliminan su contenido sin permiso. Para abordar esta creciente preocupación, Llamarada de nube él tiene introducido una función que permite a los clientes bloquear robots de IA con solo un clic.

Los robots de IA, también conocidos como rastreadores o raspadores de IA, son programas automatizados diseñados para navegar sistemáticamente por Internet y recopilar grandes cantidades de datos. A diferencia de los rastreadores web tradicionales utilizados por los motores de búsqueda para indexar contenido, los robots de IA a menudo recopilan información para entrenar grandes modelos de lenguaje o impulsar aplicaciones impulsadas por IA. Si bien los rastreadores de los motores de búsqueda generalmente siguen protocolos establecidos, como respetar los archivos robots.txt e identificarse claramente, es posible que algunos robots de inteligencia artificial no cumplan con estas cortesías.

El auge de la IA generativa ha aumentado drásticamente la demanda de datos de capacitación, lo que hace que el contenido web original sea más valioso que nunca. Esto ha generado preocupaciones sobre el uso no autorizado de material protegido por derechos de autor, información personal y propiedad intelectual. Incidentes notables han puesto de relieve estos problemas, como el informado por Google. 60 millones de dolares pago anual para licenciar el contenido generado por usuarios de Reddit y acusaciones de que empresas de inteligencia artificial utilizan voces de celebridades sin permiso.

Al reconocer la creciente necesidad de un mejor control sobre el acceso de los bots de IA, Cloudflare ha lanzado una nueva función que permite a los clientes bloquear todos los bots de IA con un solo clic. Esta opción está disponible para todos los usuarios de Cloudflare, incluidos los del nivel gratuito. Para habilitar esta protección, los clientes simplemente navegan a la sección Seguridad del panel de Cloudflare y activan el botón «AI Scrapers and Crawlers».

Esta característica está diseñada para ser dinámica, y Cloudflare la actualiza continuamente para manejar nuevas huellas digitales de robots ofensivos identificados como rastreadores de la web para entrenamiento de modelos. Al aprovechar su vasta red, que procesa un promedio de 57 millones de solicitudes por segundo, Cloudflare puede detectar y responder rápidamente a la actividad emergente de bots de IA.

El análisis de Cloudflare sobre el tráfico de bots de IA en su red reveló algunas ideas interesantes:

1. Los bots de IA más activos en términos de volumen de solicitudes son Bytespider, Amazonbot, ClaudeBot y GPTBot.

2. Bytespider, operado por ByteDança (empresa matriz de TikTok), lidera tanto en volumen de solicitudes como en alcance del seguimiento de propiedades en Internet.

3. GPTBot, gestionado por IA abiertaOcupa el segundo lugar en seguimiento de actividad y frecuencia de bloqueo por parte de propietarios de sitios web.

4. A pesar de que los bots de IA acceden al 39% del millón de propiedades de Internet más importantes utilizando Cloudflare, solo el 2,98% de estas propiedades bloquean o desafían activamente las solicitudes de los bots de IA.

5. Los sitios más populares tienen más probabilidades de ser atacados por robots de IA y, en consecuencia, es más probable que implementen medidas de bloqueo.

Uno de los desafíos en la gestión del tráfico de bots de IA es que algunos operadores intentan disfrazar sus bots como navegadores legítimos utilizando agentes de usuario falsos. Cloudflare ha desarrollado sofisticados modelos de aprendizaje automático para identificar estas prácticas engañosas. Su sistema global de puntuación de bots puede marcar con precisión el tráfico de bots de IA evasivos, incluso cuando cambian sus agentes de usuario o emplean otras técnicas de ofuscación.

El enfoque de Cloudflare aprovecha los modelos globales de aprendizaje automático y agrega datos a través de múltiples indicadores para comprender la confiabilidad de varias huellas digitales de los bots. Esto les permite detectar nuevas herramientas y comportamientos de raspado sin tener que tomar huellas dactilares manualmente de cada bot, lo que garantiza que los clientes permanezcan protegidos contra las últimas oleadas de actividad de los bots.

Al proporcionar esta función de bloqueo fácil de usar, Cloudflare tiene como objetivo capacitar a los propietarios de sitios web para que mantengan el control sobre su contenido y decidan cómo se puede utilizar en aplicaciones de capacitación o de inteligencia artificial. Este cambio también envía un mensaje claro a las empresas de IA sobre la importancia de respetar los derechos de los creadores de contenido y obtener los permisos adecuados para el uso de datos.

Cloudflare también ha introducido mecanismos para que los usuarios informen sobre rastreadores de IA que se comportan de manera inapropiada. Los clientes de Enterprise Bot Management pueden enviar informes falsos de comentarios negativos a través de Bot Analytics, mientras que todos los clientes de Cloudflare pueden usar una herramienta de informes dedicada para marcar los robots de IA que rastrean sus sitios sin permiso.

A medida que la tecnología de IA continúa evolucionando, Cloudflare anticipa que algunas empresas de IA pueden adaptar persistentemente sus métodos para evitar la detección. En respuesta, Cloudflare promete actualizar continuamente sus reglas de AI Scrapers y Crawlers y perfeccionar sus modelos de aprendizaje automático. Su objetivo es garantizar que Internet siga siendo un lugar donde los creadores de contenido puedan prosperar y mantener un control total sobre cómo se utiliza su trabajo en la capacitación y las aplicaciones de IA.

Esta iniciativa de Cloudflare representa un paso importante en la conversación en curso sobre la ética de la IA, los derechos de los datos y el futuro de la creación de contenido en la era digital. Al proporcionar herramientas para gestionar el acceso de los bots de IA, Cloudflare está ayudando a dar forma a una relación más transparente y consensuada entre los creadores de contenido y los desarrolladores de IA, lo que potencialmente influye en la dirección del desarrollo de la IA hacia prácticas y éticas más responsables.