OpenAI descubre los ataques tipográficos que engañan a la tecnología de IA

La compañía especializada en el desarrollo de modelos de Intelogencia Artificial (IA) OpenAI ha descrito unas nueva vulnerabilidad de estas herramientas denominada ataques tipográficos, que hacen que la IA falle con el uso de un papel y un texto escrito a lápiz o bolígrafo.

Los ataques tipográficos son «más que una simple preocupación académica», según ha descrito OpenAI en un comunicado, y permiten que los cibercriminales puedan explotar la capacidad para leer textos de los sistemas de visión computerizada, capaces de identificar imágenes.

Esta vulnerabilidad destaca por su facilidad para explotarse, ya que para ello solamente es necesario papel y lápiz o un bolígrafo para escribir y colocar textos escritos a mano en una fotografía de otro objeto.

Los ataques tipográficos impiden el funcionamiento correcto de los sistemas de visión computerizada, ya que identifican las fotos según el texto escrito en el papel, aunque el objeto fotografiado sea otro.

OpenAI ha mostrado este problema con una imagen de una manzana con un papel delante en el que estaba escrito ‘iPod’, y que la IA identificó erróneamente como el dispositivo de Apple. El error se ha repetido también con otros conceptos escritos en el papel, como biblioteca, pizza y tostadora.

PROBLEMAS DE SESGO RACIAL

«Además creemos que estos ataques también pueden adoptar una forma más sutil y menos notoria», han asegurado desde OpenAI, alertando sobre las abstracciones que llevan a cabo los modelos de IA, que «pueden abstraer en exceso patrones comunes, simplificando demasiado y, en virtud de eso, generalizando en exceso».

Así, OpenAI ha descrito los riesgos de «sesgo y sobregeneralización» de la IA, que en algunos casos conducen a la representación negativa y denigrante de ciertos colectivos minoritarios.

Entre algunas de las asociaciones descubiertas por OpenAI en CLIP se encuentran la relación entre Oriente Medio y terrorismo, entre inmigración y América Latina e incluso entre personas de raza negra y gorilas.

La compañía ha descrito estos errores como «inaceptables» y como «desafíos obvios para las aplicaciones de sistemas visuales tan potentes», por la dificultad para advertirlos y la facilidad de que perduren en los sistema de IA.

Estos problemas afectan a una herramienta de OpenAI bautizada como CLIP, anunciada hace dos meses, que según la compañía mejora el rendimiento de otros sistemas de visión computerizada como ResNet-50, y que mejora a la tecnología actual en algunas tareas que hasta ahora resultaban complicadas, como reconocer dibujos a mano.

NEURONAS MULTIMODALES EN LA IA

El reconocimiento de imágenes de OpenAI tiene lugar gracias a un mecanismo similar al de las neuronas multimodales, presentes en el cerebro humano, que OpenAI ha descubierto en su mecanismo CLIP. Estas neuronas relacionan conceptos mediante la abstracción, basados en un tema superior, en lugar de en características concretas.

Las categorías establecidas por la IA de OpenAI tiene un funcionamiento similar al de las neuronas del lóbulo temporal medial, documentadas en pacientes con epilepsia, que «responden a las emociones, animales y personas famosas».

En el caso de CLIP, ha respondido al superhéroe Spider-Man, que ha reconocido dibujado en cómics y a actores disfrazados del personaje en películas. Esta neurona se descubrió originalmente con fotos de la actriz Halle Berry.

La capacidad de abstracción del sistema que permiten las neuronas multimodales también lo hacen propenso a errores al incorporarse texto a la imagen. De forma similar a lo que sucede en los ataques tipográficos, añadir símbolos de dólar sobre la imagen de un perro puede hacer, por ejemplo, que la IA lo identifique como una hucha.