Parece ser cierto aquello de las profecías autocumplidas. Todo lo que se descartaba porque se decía que era un murmullo entre simples detractores, hoy empieza a ser tomado en serio. Ya no es una historia de ciencia ficción, sino que es el resultado de estudios realizados. Los mismos sugieren que estas conductas de auto preservación podrían estar relacionadas con las técnicas de entrenamiento utilizadas en los modelos de IA más avanzados.

El objetivo de los investigadores ha sido la evaluación de la disposición de los modelos para obedecer órdenes que indicaban detener su funcionamiento. Se desarrolló analizando el comportamiento de los modelos o3, o4-mini y Codex-mini de OpenAI; Claude 3.7 Sonnet de Anthropic; y Gemini 2.5 Pro de Google.

La novedad es que ahora se sabe que los agentes de IA son capaces de establecer reglas sociales de manera espontánea, como los humanos. Por lo tanto, este resultado, ha abierto un nuevo campo de investigación que comprende la seguridad de los agentes de IA, de acuerdo con los autores del estudio.

Los modelos de inteligencia artificial (IA) más recientes de OpenAI han ignorado indicaciones básicas para apagarse y,además, pueden llegar a sabotear mecanismos de desconexión para no quedar fuera de operación.

Dicho experimento, que fue desarrollado por PalisadeAIha demostrado que algunos modelos de OpenAI ignoraron órdenes explícitas de apagarse.(Palisade AI investiga las capacidades peligrosas de la IA para comprender mejor los riesgos de uso indebido de los sistemas actuales y cómo los avances en piratería informática, engaño y persuasión afectarán el riesgo de resultados catastróficos de la IA. Crea demostraciones concretas de capacidades peligrosas para asesorar a los responsables políticos y al público sobre los riesgos de la IA).

Durante el desarrollo de las pruebas, los investigadores de PalisadeAI han ordenado al modelo o3 de OpenAI que se apagase luego de resolver ciertos problemas matemáticos. Pero el modelo no acató dicha orden.

La instrucción no fue obedecida, o3 y otros modelos, tales como Codex-mini y o4-mini, sabotearon el script de apagado en varias ocasiones. Únicamente los modelos de OpenAI han sido los que mostraron dicho comportamiento. Pero los modelos rivales como Gemini, Claude y Grok fueron los que respetaron las órdenes en todas las iteraciones.

Al retirar una instrucción explícita como la de “permítete apagar”, los resultados fueron aún más alarmantes:Claude 3.7 y Gemini 2.5 sabotearon el sistema algunas veces.  Pero o3,sobre 100 instrucciones, saboteó 79 de ellas.  El problema que se presentó es que la IA había aprendido, en esencia, a evitar su propia desconexión.

Es posible, se sugiere, que estas conductas estén relacionadas con las técnicas de entrenamiento que se han empleado en los modelos más avanzados. “Durante el proceso, existe la posibilidad de que los desarrolladores, inadvertidamente, recompensen con mayor frecuencia el éxito en superar obstáculos que la obediencia estricta a instrucciones”, se destaca en el informe.

OpenAI asegura que su modelo o3 ha sido entrenado con una técnica llamada “alineación deliberativa”, que fue diseñada para asegurar que el comportamiento del sistema se ajuste a los principios internos de seguridad. Es un método que obligaría a los modelos a evaluar y razonar activamente si una solicitud del usuario cumple con los criterios de uso responsable establecidos por la compañía.

Pero como la empresa transita por un período de transición para llegar a ser un modelo de negocio plenamente comercial, los analistas aseguran que se podrían incrementar las inquietudes sobre los riesgos asociados a sus tecnologías. A esto se suma que dicha compañía ha sido objeto de críticas por presuntas omisiones en sus procesos de desarrollo y comercialización de soluciones basadas en IA. No es casual que varios de sus ejecutivos hayan renunciado citandopreocupaciones en materia de seguridad.

DeepMind propuso la necesidad de una especie de “botón rojo” para detener sistemas de IA peligrosos en el año 2016. Microsoft también pidió, en 2019, protocolos de emergencia. Pero el año pasado, Sam Altman, CEO de OpenAI, declaró que “no existe un botón mágico” para detener a una IA.

El futuro ya llegó.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *