Ahora que las máquinas pueden aprender, ¿pueden desaprender?
Empresas de todo tipo utilizan aprendizaje automático analizar los deseos, disgustos o rostros de las personas. Algunos investigadores ahora están haciendo una pregunta diferente: ¿Cómo podemos hacer que las máquinas olviden?
Un área incipiente de la informática denominada informática desaprender busca formas de inducir amnesia selectiva en inteligencia artificial Software. El objetivo es eliminar todos los rastros de una persona en particular o un punto de datos de un sistema de aprendizaje automático sin afectar su rendimiento.
Si se hace práctico, el concepto puede dar a las personas más control sobre sus datos y el valor que se deriva de ellos. Si bien es posible que los usuarios ya pidan a algunas empresas que eliminen datos personales, a menudo no saben qué algoritmos les ha ayudado a modificar o entrenar su información. El desaprendizaje automático puede permitir que una persona extraiga sus datos y la capacidad de la empresa para beneficiarse de ellos.
Si bien es intuitivo para cualquiera que se haya arrepentido de lo que compartió en línea, esta noción de amnesia artificial requiere algunas ideas nuevas en informática. Las empresas gastan millones de dólares en capacitar algoritmos de aprendizaje automático para reconocer rostros o clasificar publicaciones en redes sociales, porque los algoritmos a menudo pueden resolver un problema más rápido que los codificadores humanos por sí solos. Pero una vez entrenado, un sistema de aprendizaje automático no se cambia fácilmente, o incluso entendido. La forma convencional de eliminar la influencia de un punto de datos dado es reconstruir un sistema desde cero, un ejercicio potencialmente costoso. «Esta investigación tiene como objetivo encontrar un término medio», dice Aaron Roth, profesor de la Universidad de Pensilvania que trabaja en el desaprendizaje automático. «¿Podemos eliminar toda influencia de los datos de alguien cuando solicitan eliminarlos, pero evitar el costo total de volver a capacitarse desde cero?»
El trabajo de desaprendizaje automático se debe en parte a la creciente atención a las formas en que la inteligencia artificial puede erosionar la privacidad. Los reguladores de datos de todo el mundo han tenido durante mucho tiempo el poder de obligar a las empresas a excluir la información obtenida de forma deficiente. Ciudadanos de algunos lugares, como el ME y California, todavía tienen derecho a pedirle a una empresa que elimine sus datos si cambian de opinión sobre lo que revelaron. Más recientemente, los reguladores de EE. UU. Y Europa han dicho que los propietarios de sistemas de inteligencia artificial a veces necesitan ir un paso más allá: eliminar un sistema que ha sido capacitado en datos confidenciales.
El año pasado, el regulador de datos del Reino Unido empresas asesoradas que algún software de aprendizaje automático puede estar sujeto a los derechos de GDPR, como la eliminación de datos, porque un sistema de inteligencia artificial puede contener datos personales. Los investigadores de seguridad mostraron que los algoritmos a veces pueden verse obligados a filtrar datos confidenciales utilizados en su creación. A principios de este año, la Comisión Federal de Comercio de EE. UU. inicialización forzada del reconocimiento facial Paravision para eliminar una colección de fotos faciales obtenidas incorrectamente y algoritmos de aprendizaje automático entrenados en ellas. El comisionado de la FTC, Rohit Chopra, elogió esta nueva táctica de supervisión como una forma de obligar a una empresa que viola las reglas de datos a «perder los frutos de su engaño».
El pequeño campo de la investigación sobre el desaprendizaje automático se ocupa de algunas de las cuestiones prácticas y matemáticas que plantean estos cambios regulatorios. Los investigadores han demostrado que pueden hacer que los algoritmos de aprendizaje automático se olviden en ciertas condiciones, pero la técnica aún no está lista para el horario de máxima audiencia. “Como es común en un campo joven, existe una brecha entre lo que esta área aspira a hacer y lo que sabemos hacer ahora”, dice Roth.
Propuesta de un enfoque prometedor en 2019 por investigadores de las universidades de Toronto y Wisconsin-Madison implica segregar los datos de origen para un nuevo proyecto de aprendizaje automático en varias partes. Luego, cada uno se procesa por separado, antes de que los resultados se combinen en el modelo final de aprendizaje automático. Si posteriormente se necesita olvidar un punto de datos, solo será necesario reprocesar una fracción de los datos de entrada originales. Se ha demostrado que el enfoque funciona con datos de compras en línea y una colección de más de un millón de fotos.
Roth y colaboradores de Penn, Harvard y Stanford recientemente demostró una falla en este enfoque, mostrando que el sistema de desaprendizaje se rompería si las solicitudes de eliminación enviadas vinieran en una secuencia específica, ya sea por casualidad o por un actor malintencionado. También mostraron cómo se podría mitigar el problema.
Gautam Kamath, profesor de la Universidad de Waterloo que también trabaja en el desaprendizaje, dice que el problema que encontró y solucionó el proyecto es un ejemplo de las muchas preguntas abiertas sobre cómo hacer que el desaprendizaje automático sea más que una simple curiosidad de laboratorio. Su propio grupo de investigación ha sido explorador cuánto se reduce la precisión de un sistema al desaprender sucesivamente múltiples puntos de datos.
Kamath también está interesado en encontrar formas para que una empresa demuestre, o un regulador verifique, que un sistema realmente ha olvidado lo que debería desaprender. “Parece que está un poco más avanzado, pero tal vez eventualmente tengan auditores para este tipo de cosas”, dice.
Es probable que aumenten las razones regulatorias para investigar la posibilidad del desaprendizaje automático a medida que la FTC y otros analicen más de cerca el poder de los algoritmos. Reuben Binns, profesor de la Universidad de Oxford que estudia la protección de datos, dice que la noción de que las personas deberían tener voz en el destino y los frutos de sus datos ha crecido en los últimos años tanto en Estados Unidos como en Europa.
Se necesitará un trabajo técnico virtuoso antes de que las empresas de tecnología puedan implementar el desaprendizaje automático como una forma de dar a las personas más control sobre el destino algorítmico de sus datos. Aun así, es posible que la tecnología no cambie mucho sobre los riesgos de privacidad de la era de la inteligencia artificial.
Privacidad diferencial, una técnica inteligente para establecer límites matemáticos sobre lo que un sistema puede filtrar a una persona, proporciona una comparación útil. Apple, Google y Microsoft aplauden la tecnología, pero se usa con relativa poca frecuencia y los peligros de la privacidad aún abundan.
Binns dice que si bien puede ser realmente útil, «en otros casos, es más algo que una empresa hace para demostrar que está innovando». Sospecha que el desaprendizaje automático podría ser similar, más una demostración de perspicacia técnica que un cambio importante en la protección de datos. Incluso si las máquinas aprenden a olvidar, los usuarios deberán recordar tener cuidado con las personas con las que comparten los datos.
Esta historia apareció originalmente en wired.com.