Los investigadores de Microsoft AI expusieron accidentalmente terabytes de datos confidenciales internos
Créditos de imagen: imágenes falsas
Los investigadores de inteligencia artificial de Microsoft expusieron accidentalmente decenas de terabytes de datos confidenciales, incluidas claves privadas y contraseñas, mientras publicaban un depósito de almacenamiento de datos de capacitación de código abierto en GitHub.
En una investigación compartida con TechCrunch, la startup de seguridad en la nube Wiz dijo que descubrió un repositorio de GitHub perteneciente a la división de investigación de inteligencia artificial de Microsoft como parte de su trabajo en curso sobre la exposición accidental de datos alojados en la nube.
Los lectores del repositorio de GitHub, que proporcionaba código fuente abierto y modelos de IA para el reconocimiento de imágenes, recibieron instrucciones de descargar los modelos desde una URL de Azure Storage. Sin embargo, Wiz descubrió que esta URL estaba configurada para otorgar permisos en toda la cuenta de almacenamiento, exponiendo por error datos privados adicionales.
Estos datos incluían 38 terabytes de información confidencial, incluidas copias de seguridad personales de las computadoras personales de dos empleados de Microsoft. Los datos también contenían otros datos personales confidenciales, incluidas contraseñas de servicios de Microsoft, claves secretas y más de 30.000 mensajes internos de Microsoft Teams de cientos de empleados de Microsoft.
La URL, que ha expuesto estos datos desde 2020, también estaba mal configurada para permitir permisos de “control total” en lugar de “solo lectura”, según Wiz, lo que significaba que cualquiera que supiera dónde buscar podía eliminar, reemplazar e inyectar información maliciosa. . contenido en ellos.
Wiz señala que la cuenta de almacenamiento no quedó expuesta directamente. En cambio, los desarrolladores de IA de Microsoft incluyeron un token de firma de acceso compartido (SAS) demasiado permisivo en la URL. Los tokens SAS son un mecanismo utilizado por Azure que permite a los usuarios crear vínculos compartibles que otorgan acceso a los datos en una cuenta de Azure Storage.
«La IA abre un enorme potencial para las empresas de tecnología», dijo a TechCrunch el cofundador y director de tecnología de Wiz, Ami Luttwak. “Sin embargo, a medida que los científicos e ingenieros de datos se apresuran para poner en producción nuevas soluciones de inteligencia artificial, las enormes cantidades de datos que manipulan requieren controles de seguridad y protecciones adicionales. Dado que muchos equipos de desarrollo necesitan manipular grandes cantidades de datos, compartirlos con colegas o colaborar en proyectos públicos de código abierto, casos como el de Microsoft son cada vez más difíciles de monitorear y evitar”.
Wiz dijo que compartió sus hallazgos con Microsoft el 22 de junio y Microsoft revocó el token SAS dos días después, el 24 de junio. Microsoft dijo que concluyó su investigación sobre el posible impacto organizacional el 16 de agosto.
En una publicación de blog compartida con TechCrunch antes de la publicación, el Centro de Respuesta de Seguridad de Microsoft dijo que «ningún dato de cliente fue expuesto y ningún otro servicio interno fue puesto en riesgo debido a este problema».
Microsoft dijo que como resultado de la investigación de Wiz, ha ampliado el servicio secreto GitHub que monitorea todos los cambios públicos en el código fuente abierto para exponer credenciales y otros secretos en texto plano para incluir cualquier token SAS que pueda tener vencimientos o privilegios demasiado permisivos.