Contacto

×
  • +54 343 4178845

  • bcuadra@examedia.com.ar

  • Entre Ríos, Argentina

  • La inteligencia artificial sigue alucinando: OpenAI advierte que los sistemas actuales premian las respuestas inventadas sobre la honestidad

    Buenos Aires » Infobae

    Fecha: 15/09/2025 10:39

    Las alucinaciones en la IA siguen siendo un desafío estructural: los modelos priorizan adivinar antes que reconocer su desconocimiento (Perplexity) La persistencia de las alucinaciones en los modelos de lenguaje ha sido identificada como uno de los principales obstáculos para la fiabilidad de la inteligencia artificial, a pesar de los avances recientes y de las inversiones multimillonarias en el sector. Un análisis exhaustivo realizado por OpenAI y recogido por Futurism revela que la raíz de este fenómeno no reside únicamente en la complejidad técnica de los modelos, sino en la propia estructura de su entrenamiento y evaluación, que incentiva respuestas inventadas en lugar de la admisión de incertidumbre. El término “alucinación” en el contexto de la inteligencia artificial se refiere a la generación de afirmaciones plausibles pero incorrectas por parte de los modelos de lenguaje. Según el estudio de OpenAI, este tipo de error no es un mero accidente, sino una consecuencia directa de los métodos de entrenamiento y de los criterios de evaluación predominantes en la industria. Los investigadores sostienen que los modelos son optimizados para “ser buenos en los exámenes”, lo que significa que, ante una pregunta cuya respuesta desconocen, tienden a adivinar en vez de reconocer su ignorancia. Esta tendencia se ve reforzada por sistemas de puntuación binaria que premian las respuestas correctas y penalizan tanto los errores como las abstenciones, sin distinguir entre una respuesta incorrecta y una expresión honesta de incertidumbre. El análisis estadístico presentado por OpenAI demuestra que, incluso si los datos de entrenamiento estuvieran completamente libres de errores, los objetivos de optimización empleados durante el preentrenamiento conducirían inevitablemente a la generación de errores. El problema se agrava cuando el modelo se enfrenta a hechos poco frecuentes o únicos en el conjunto de datos, como fechas de nacimiento que solo aparecen una vez. En estos casos, la probabilidad de que el modelo “alucine” una respuesta incorrecta puede alcanzar, como mínimo, el porcentaje de hechos únicos presentes en los datos de entrenamiento. “Si el 20% de los hechos sobre cumpleaños aparece solo una vez en los datos de entrenamiento, se espera que los modelos base alucinen al menos en el 20% de esos casos”, señala el informe. OpenAI advierte que los sistemas de evaluación actuales incentivan respuestas inventadas en lugar de premiar la incertidumbre honesta (Reuters) La investigación también distingue entre alucinaciones intrínsecas, que contradicen el propio enunciado del usuario, y alucinaciones extrínsecas, que se oponen a la realidad o a los datos de entrenamiento. Además, identifica factores adicionales que contribuyen a estos errores, como la dificultad computacional de ciertos problemas, el desajuste entre los datos de entrenamiento y los de prueba, y la presencia de información errónea en los corpus utilizados para entrenar los modelos (“garbage in, garbage out”). El proceso de postentrenamiento, que busca refinar el modelo y reducir las alucinaciones, tampoco logra erradicar el problema. Según OpenAI, esto se debe a que los principales benchmarks y tablas de clasificación del sector siguen utilizando métricas binarias que penalizan la incertidumbre. “La mayoría de los marcadores priorizan y clasifican los modelos en función de la precisión, pero los errores son peores que las abstenciones”, advierte la compañía en su blog. Esta estructura incentiva a los modelos a arriesgarse con respuestas inventadas, ya que una abstención o una expresión de duda siempre recibe la peor puntuación posible. El estudio de OpenAI propone una solución concreta: modificar los sistemas de evaluación para que penalicen más severamente los errores cometidos con exceso de confianza y otorguen crédito parcial a las respuestas que expresan apropiadamente la incertidumbre. “Las modificaciones simples de las evaluaciones convencionales pueden realinear los incentivos, recompensando las expresiones adecuadas de incertidumbre en lugar de penalizarlas”, concluyen los investigadores. De este modo, se eliminarían las barreras que dificultan la supresión de las alucinaciones y se abriría la puerta al desarrollo de modelos de lenguaje más matizados y pragmáticamente competentes. El informe propone rediseñar las métricas de evaluación para reducir errores de confianza excesiva y favorecer respuestas más fiables (Imagen Ilustrativa Infobae) La implementación de estos cambios, sin embargo, enfrenta desafíos prácticos. La mayoría de los benchmarks influyentes, como MMLU-Pro, GPQA, SWE-bench y HLE, no contemplan la posibilidad de respuestas del tipo “no lo sé” y continúan premiando las conjeturas afortunadas. Incluso en evaluaciones donde se permite expresar incertidumbre, como WildBench, las respuestas que admiten desconocimiento suelen recibir una puntuación inferior a las respuestas incorrectas pero plausibles. “Si los principales marcadores siguen premiando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar”, advierte OpenAI en su blog. El trabajo también subraya que la calibración de los modelos —la capacidad de ajustar la confianza de sus respuestas a la probabilidad real de acierto— es un objetivo estadísticamente natural, pero que la presión por maximizar la precisión en los exámenes tiende a desincentivar este comportamiento. Los investigadores sugieren que la introducción de umbrales explícitos de confianza en las instrucciones de los exámenes podría fomentar respuestas más honestas y útiles, permitiendo que los modelos opten por abstenerse cuando su nivel de certeza no supera el umbral requerido. A pesar de los avances en técnicas de reducción de alucinaciones, como el aprendizaje por refuerzo con retroalimentación humana o la integración de sistemas de recuperación de información, el problema persiste debido a la estructura de incentivos vigente. El informe de OpenAI concluye que solo una revisión profunda de los criterios de evaluación permitirá avanzar hacia sistemas de inteligencia artificial verdaderamente fiables. “Las alucinaciones siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje, pero estamos trabajando arduamente para reducirlas aún más”, promete la compañía en su comunicación oficial.

    Ver noticia original

    También te puede interesar

  • Examedia © 2024

    Desarrollado por