Descartar modelos de entrenamiento propicia escapes de datos confidenciales

La investigación sobre los algoritmos de desaprendizaje ha despertado una creciente preocupación en torno a la protección de datos personales y la propiedad intelectual. Un grupo de expertos de destacadas instituciones académicas y Google Research han analizado en profundidad cómo estos algoritmos, diseñados para eliminar información confidencial de los modelos de aprendizaje automático, pueden en realidad favorecer la fuga de datos privados de los usuarios.

En este exhaustivo estudio, los investigadores han evaluado el desempeño de ocho algoritmos de desaprendizaje, concluyendo que si bien logran evitar la memorización de contenido, lo hacen a un costo significativo para la utilidad de los datos que no están destinados a ser eliminados. Esta es una de las principales revelaciones de su trabajo, publicado en MUSE: Machine Learning Six-Way Evaluation for Language Models, que pone de manifiesto la necesidad urgente de seguir avanzando en esta área.

La complejidad de desaprender datos confidenciales

Los modelos de lenguaje se entrenan con grandes volúmenes de texto, que pueden incluir información privada y con derechos de autor. Esto ha llevado a autores, editores y sellos discográficos a presentar demandas, exigiendo cambios en la forma en que se recopila y utiliza esta información, ya que consideran que perjudica sus obras protegidas por derechos de autor.

Ante esta situación, han surgido las técnicas de desaprendizaje, con el objetivo de hacer que las empresas y desarrolladores de herramientas de IA eliminen de sus registros todos aquellos datos confidenciales o «tokens» de los usuarios que no deberían estar almacenados. Sin embargo, los expertos han descubierto que «desaprender exactamente esos datos privados -y no hacer lo mismo con los públicos o de libre uso- es intratable en los modelos actuales», lo que ha llevado al desarrollo de múltiples algoritmos de desaprendizaje aproximados.

La eficacia de estos algoritmos ha sido tradicionalmente difícil de evaluar, pues no es posible cuantificar con precisión su éxito y practicidad desde las perspectivas tanto de los implementadores del modelo como de los propietarios de los datos. Por ello, los investigadores han desarrollado un punto de referencia integral llamado MUSE, que les ha permitido estudiar el comportamiento de ocho algoritmos de desaprendizaje en función de seis criterios considerados «deseables» para un modelo que ha experimentado este proceso.

Hallazgos preocupantes sobre la protección de datos

Los resultados de la evaluación realizada por los expertos son, cuando menos, preocupantes. Descubrieron que la mayoría de los algoritmos de desaprendizaje «eliminan la memorización palabra por palabra y la memorización de conocimiento con diferentes grados de eficacia, pero operan a costa de la preservación de la utilidad y no previenen eficazmente la fuga de privacidad».

Los investigadores señalan que «los algoritmos de desaprendizaje generalmente no cumplen con las expectativas de los propietarios de los datos en lo que respecta a la prevención de fugas de información privada, que es una de las principales motivaciones para el desaprendizaje».

A pesar de que reconocen que «cada vez es más deseable encontrar un algoritmo de desaprendizaje eficiente y eficaz» debido a las preocupaciones en torno a las regulaciones de privacidad y la preservación de los derechos de autor, su evaluación sugiere que «los métodos de desaprendizaje actualmente factibles aún no están listos para un uso significativo o implementación en escenarios del mundo real».

Asimismo, han observado que los métodos actuales de desaprendizaje evitan con éxito la memorización de contenido por parte del modelo, «con un coste significativo para la utilidad de los datos que no están destinados a ser utilizados». Esto hace que los firmantes de este estudio consideren que es «una necesidad apremiante» realizar más investigaciones en este área, para lo que han contribuido facilitando su punto de referencia a otros expertos.