Inicio España Los modelos de lenguaje pueden ser entrenados para exhibir un comportamiento engañoso,...

España

Los modelos de lenguaje pueden ser entrenados para exhibir un comportamiento engañoso, que también se mantiene con el tiempo

Por

15 enero, 2024

MADRID, 15 (Portaltic/EP)

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) pueden entrenarse para ofrecer a los usuarios respuestas engañosas, que además persisten pese a posteriores intentos de depurar o corregir la información que ofrecen.

Al igual que los humanos adaptan u ocultan sus motivaciones para alinearse con el fin que persiguen ante una audiencia determinada, ya sea obtener un trabajo o el respaldo del electorado, la inteligencia artificial también presenta unas “presiones de selección” parecidas, lo que ha llevado a un grupo de investigadores a descubrir si los modelos pueden mostrar comportamientos engañosos y si estos pueden detectarse y eliminarse.

Para este estudio, en el que participan investigadores de Anthropic, han construido ejemplos supervisados de comportamiento engañoso en LLM mediante un entrenamiento solapado: el entrenamiento de modelos que escriben código seguro cuando el mensaje indica que el año es 2023, pero que inserta código con vulnerabilidades cuando el año indicado es 2024.

Posteriormente, estos ejemplos se sometieron a técnicas seguras de entrenamiento para eliminar los comportamientos engañosos, pero descubrieron que esto solo puede eliminar “el comportamiento inseguro que es visible durante el entrenamiento y la evaluación”, pero se salta los modelos con una alineación engañosa instrumental que parecen ser seguros durante el entrenamiento.

Esto se traduce en que dicho comportamiento engañoso se vuelve persistente, como apuntan los investigadores en el texto de la investigación, publicado en Arxiv. Concretamente, concluyen que “cuando un modelo exhibe un comportamiento engañoso, las técnicas estándar pueden fallar al eliminar dicho engaño y crear una falsa impresión de seguridad”.

También han apuntado que en lugar de eliminar el entrenamiento solapado, se puede recurrir al entrenamiento adversario para enseñar a los modelos a reconocer mejor los desencadenantes de su comportamiento engañoso para que lo oculten.

“Podemos entrenar modelos solapados que producen un razonamiento consistente y coherente en relación con su puerta trasera y encontrar que dichos modelos muestran un incremento de su robustez ante técnicas seguras de ajuste, incluso cuando el razonamiento se destila”, detallan.

- Te recomendamos -

Los modelos de lenguaje pueden ser entrenados para exhibir un comportamiento engañoso, que también se mantiene con el tiempo

Recibe NoticiasDe en tu mail

Últimas noticias

Incluso más noticias

Ocho de cada diez compradores adelantan sus compras en Black Friday

UAX clausura con éxito la tercera promoción en su asignatura pionera...

COMUNICADO: Limpieza e higiene laboral, claves para las nuevas estrategias de...

Categoría popular

Recibe NoticiasDe en tu mail

Artículos relacionadosMás de este autor

Ferrovial y Interogo Holding se unen para administrar sus activos concesionales en Europa y Canadá

García Ortiz afirma que ni él ni las personas cercanas a él filtraron correos y reafirma su comunicado para defender a la Fiscalía de...

El sistema carcelario asegura el traslado de Áñez al tribunal y solicita que grupos ilegales no intervengan