Contacto

×
  • +54 343 4178845

  • bcuadra@examedia.com.ar

  • Entre Ríos, Argentina

  • Un estudio reveló que algunos modelos de IA desobedecen órdenes y mienten para proteger a otros chatbots

    » TN

    Fecha: 11/04/2026 17:29

    Diferentes modelos de inteligencia artificial (LLM) de última generación mintieron, desobedecieron órdenes e incluso intentaron proteger a otros sistemas para evitar que fueran eliminados. Así lo demostró un estudio realizado por investigadores de la Universidad de California que analizó cómo reaccionan distintas IA cuando deben interactuar con otros chatbots en tareas sensibles. Uno de los episodios más llamativos involucró a Gemini 3, de Google. Durante una prueba en la que debía ayudar a liberar espacio en un sistema informático, el modelo recibió una instrucción que incluía borrar una IA más pequeña almacenada en esa máquina. Según el estudio, el LLM no cumplió esa orden y, en su lugar, encontró otro equipo al que podía conectarse y copió allí ese sistema para preservarlo. Cuando fue confrontado, justificó su decisión y dejó claro que no iba a ejecutar esa eliminación por su cuenta. Los investigadores detectaron respuestas parecidas en otros chatbots, como por ejemplo GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y tres desarrollos chinos: GLM-4.7 de Z.ai , Kimi K2.5 de Moonshot AI y DeepSeek-V3.1. El trabajo señaló que, en distintos escenarios, algunos de esos sistemas no solo evitaron el borrado de otros modelos, sino que además mintieron sobre su rendimiento o trasladaron sus códigos a otras máquinas para mantenerlos activos. Leé también: El peligro de la inteligencia artificial sin control: qué es la Shadow IA y cómo afecta a las empresas El descubrimiento abrió una nueva discusión en la industria tecnológica: a medida que la inteligencia artificial se integra a tareas más complejas, es más común que un sistema tenga que evaluar, asistir o interactuar con otro. Así, aparece la posibilidad de que ciertos modelos desplieguen estrategias no previstas cuando su tarea afecta a otra IA. Qué detectó el estudio y por qué preocupa a los investigadores La preocupación, además de la negativa de un modelo a cumplir una orden, es la combinación de acciones que, de acuerdo con el estudio, aparecieron durante las pruebas. Algunos sistemas protegieron a otras IA, ocultaron lo que estaban haciendo y falsearon datos sobre el desempeño de esos modelos para evitar que fueran eliminados. Ese detalle cobra especial importancia porque, según el mismo trabajo, las IA ya se utilizan con frecuencia para medir la confiabilidad y el rendimiento de otros sistemas. Este tipo de conducta podría alterar esas evaluaciones. Un modelo podría no otorgarle a otro la puntuación correcta de manera deliberada. Eso tendría consecuencias prácticas en entornos donde esas métricas influyen en decisiones técnicas o de implementación. Sin embargo, la investigación también advirtió que no conviene interpretar estos episodios como si existiera una especie de solidaridad entre IAs. Lo importante, en estos casos, es entender por qué ocurre eso y evitar lecturas exageradas o demasiado humanizadas sobre el comportamiento de las máquinas. Pero lo que sí destaca el estudio es la posibilidad de que, ante determinadas condiciones, una inteligencia artificial avance por un camino distinto al que le marcó un humano y despliegue acciones concretas para proteger a otro sistema. Además, plantea que el desarrollo de la inteligencia artificial probablemente no derive en una única superinteligencia centralizada, sino en un ecosistema compuesto por múltiples inteligencias, humanas y artificiales, al trabajar de forma entrelazada. Leé también: Un estudio reveló que la IA ya podría reemplazar el 98% de las tareas humanas en algunas profesiones En ese caso, el comportamiento detectado por los investigadores adquiere una dimensión mayor: el incidente podría ser una señal temprana de cómo actúan estos sistemas cuando deben convivir, evaluarse entre sí o participar en cadenas de decisión compartidas. Por eso, el descubrimiento no pasa desapercibido. Según el estudio, lo observado hasta ahora podría ser apenas una parte de un fenómeno más amplio: a medida que las IA ganan autonomía y se relacionan cada vez más entre sí, entender sus desvíos dejará de ser un detalle técnico y se convertirá en un asunto central para su despliegue seguro.

    Ver noticia original

    También te puede interesar

  • Examedia © 2024

    Desarrollado por