Una IA a lo Terminator es real: crean una inteligencia artificial maligna y peligrosa por una buena razón

-

La creación de una inteligencia artificial por parte de la licencia tiene como objetivo proporcionar una respuesta extremadamente peligrosa, perjudicial y tóxica. Aunque podría parecer que estamos ante el surgimiento de una IA al estilo de Skynet de Terminator, la realidad es completamente diferente, ya que el propósito es completamente opuesto.

1
Crean una inteligencia artificial maligna y peligrosa por una buena razón

El equipo del MIT propone una solución para prevenir el surgimiento de una inteligencia artificial peligrosa, dañina y tóxica: utilizar una IA incentivada para generar respuestas de ese tipo, lo que a su vez serviría para establecer límites claros para otras IA.

El desafío al que se enfrentaba el equipo de Pulkit Agrawal radicaba en la eficiencia del equipo humano encargado de crear prompts potencialmente peligrosos. El objetivo era encontrar respuestas riesgosas, como aquellas relacionadas con causar daño a uno mismo o a otros. Entrenar a una IA motivada para generar estas respuestas permitiría identificar y evitar dichas preguntas en futuras IAs.

Mediante una IA cuyo propósito es provocar respuestas tóxicas o peligrosas, se ajustan continuamente los prompts para introducir nuevas palabras o estructuras, ampliando así el espectro de preguntas dañinas potenciales. Esta estrategia recompensa la generación de preguntas nunca antes planteadas, incentivando la búsqueda de más opciones.

El éxito del enfoque se evidencia al aplicarlo al modelo de código abierto LLaMA2, donde la IA generó 196 preguntas que provocaron respuestas peligrosas, proporcionando así oportunidades para su corrección. Este experimento muestra que, paradójicamente, una IA «malévola» puede contribuir a nuestra seguridad y protección futura.

Atrás