Inicio España La seguridad de los modelos de lenguaje ha generado preocupación luego de...

La seguridad de los modelos de lenguaje ha generado preocupación luego de los primeros hackeos a ChatGPT

0

MADRID, 17 (Portaltic/EP)

El auge de la popularidad de los ‘chatbots’ ha atraído la atención de otros actores que buscan aprovechar los puntos débiles que estos sistemas de inteligencia artificial (IA) puedan tener para que hagan cosas para las que no están diseñados o para infectarlos con ‘malware’.

El ‘chatbot’ de OpenAI, ChatGPT, puede utilizarse para la creación de ‘malware’ a partir de su función de apoyo para la escritura de código, y pese a los filtros de seguridad que sus responsables han implantado, como ha demostrado recientemente un investigador de Forcepoint.

Este hecho contiene la situación contraria, que ChatGPT también sea el objetivo de acciones maliciosas que buscan ‘hackearlo’. En concreto, sobrepasar las medidas que se han introducido para que las conversaciones con los usuarios sean seguras.

Es el caso que recogen en Wired, donde explican la experiencia de Alex Polyakov, quien logró ‘hackear’ la última versión del modelo de lenguaje que lo sustenta, GPT4, en un par de horas tras su lanzamiento en marzo, y ahora tiene en su poder un ‘jailbreak’ universal que funciona con distintos modelos de lenguaje de gran tamaño.

La forma en que Polyakov describe el ‘hackeo’ del ‘chatbot’ consiste en introducir una serie de entradas o apuntes, mediante frases cuidadosamente compuestas, que terminen por levantar los filtros para que ChatGPT empiece a expresarse con lenguaje racista o proponga actos ilegales, por ejemplo. Pero también para permitir la inserción datos o instrucciones maliciosos.

OpenAI, por su parte, es consciente de los fallos que puede haber en el desarrollo de sus modelos de lenguaje y por ello ha anunciado un programa de recompensas, con el que premiará con hasta 20.000 dólares (unos 18.300 euros) a quienes encuentren vulnerabilidades y errores en sus sistemas de IA.

La creación de ‘malware’, precisamente, es uno de los primeros casos de uso sobre los que ya han advertido los investigadores de ciberseguridad.


- Te recomendamos -