En un reciente incidente de seguridad, investigadores de inteligencia artificial (IA) de Microsoft expusieron accidentalmente decenas de terabytes de datos sensibles. Este error se produjo al publicar un bucket de almacenamiento de datos de entrenamiento de código abierto en GitHub.
La startup de seguridad en la nube, Wiz, fue la primera en descubrir un repositorio de GitHub perteneciente a la división de investigación de IA de Microsoft. Los lectores de este repositorio, que ofrecía código fuente abierto y modelos de IA para reconocimiento de imágenes, recibieron instrucciones para descargar los modelos desde una URL de Azure Storage. Sin embargo, Wiz identificó que esta URL estaba configurada para otorgar permisos sobre toda la cuenta de almacenamiento, exponiendo por error datos privados adicionales.
El volumen de datos expuestos alcanzó los 38 terabytes e incluyó información delicada, como las copias de seguridad personales de las computadoras de dos empleados de Microsoft. Además, se revelaron otros datos personales sensibles, como contraseñas de servicios de Microsoft, claves secretas y más de 30,000 mensajes internos de Microsoft Teams de cientos de empleados de la compañía.
Un grave error de Microsoft que no pasó a mayores
Un detalle preocupante es que la URL, que había estado exponiendo estos datos desde 2020, estaba mal configurada para permitir permisos de ‘control total’ en lugar de ‘solo lectura’. Esto significaba que cualquier persona que supiera dónde buscar podría potencialmente eliminar, reemplazar e inyectar contenido malicioso.
El problema principal no fue que la cuenta de almacenamiento estuviera directamente expuesta. El verdadero problema radicó en que los desarrolladores de IA de Microsoft incluyeron un token de firma de acceso compartido (SAS) excesivamente permisivo en la URL. Los tokens SAS son un mecanismo utilizado por Azure que permite a los usuarios crear enlaces compartibles que otorgan acceso a los datos de una cuenta de almacenamiento de Azure.
Ami Luttwak, cofundador y CTO de Wiz, comentó sobre la situación: «la IA desbloquea un enorme potencial para las empresas tecnológicas. Sin embargo, a medida que los científicos de datos e ingenieros se apresuran a llevar nuevas soluciones de IA a producción, las grandes cantidades de datos que manejan requieren controles de seguridad adicionales».
Tras ser informado por Wiz el 22 de junio, Microsoft revocó el token SAS dos días después. En una publicación de blog, el Centro de Respuesta de Seguridad de Microsoft afirmó que «no se expuso ningún dato de cliente y ningún otro servicio interno estuvo en riesgo debido a este problema».