Contacto

×
  • +54 343 4178845

  • bcuadra@examedia.com.ar

  • Entre Ríos, Argentina

  • Qué pasa cuando los expertos comparan la IA de China y la de EEUU

    » Diario Cordoba

    Fecha: 10/02/2025 07:32

    La compañía 1Million Bot es un referente en chatbots. La empresa alicantina fundada por Andrés Pedreño, catedrático de Economía y experto en inteligencia artificial (IA), ha puesto a prueba la aplicación china DeepSeek y la estadounidense ChatGPT. Los resultados los ha compartido Pedro Pernías, profesor de Lenguajes y Sistemas Informáticos de la Universidad de Alicante y socio fundador de la spin off Lucentia Lab, que ha tenido como clientes, entre otros, a Google e Indra. El grupo inició las pruebas hace dos semanas, "en cuanto DeepSeek R1 estuvo disponible". La descarga se hizo sobre un portátil, en concreto, un McBook Pro con un chip M2 Ultra y con 96 gigabytes (GB) de memoria (2 TB en HD). "No es una máquina habitual, ya que es un top gama de Apple. Su consumo en vatios no es excesivo [poco más de 300 a pleno rendimiento y 45 en reposo]. Tiene instalado Ollama y OpenWebui para simplificar pruebas y comparar modelos". Para el testeo se instaló DeepSeek 32b: "Fue tan simple como dar con el repositorio y decirle a OpenWebui que lo añadiera a Ollama". Además, advierte de una cuestión importante: este experimento se hizo "con un modelo grande, pero usando los servicios web y, por tanto, remotos". El objetivo de 1MillionBot era establecer si un modelo instalado en local puede competir con uno en red y con qué recursos mínimos habría que contar, lo que convierte la prueba en "matizable". Los análisis que se hicieron fueron "en condiciones de trabajo real, tratando de responder a una pregunta: ¿me cambio a mi DeepSeek local o continúo con ChatGPT 4.o?". Otro condicionante que hay que tener en cuenta es que "no se puede tener el modelo de ChatGPT en local" y que la comparación se hizo "entre un modelo directo y uno de razonamiento". Pero la pregunta sigue siendo válida: "¿podemos sustituir un modelo externo como ChatGPT por un modelo local o tenemos que esperar algo más?". Primeras impresiones Para el grupo que hizo las pruebas, las primeras impresiones fueron que "comparativamente, ChatGPT 4.0 resulta abrumadoramente rápido". "En nuestro ordenador, DeepSeek creaba el texto a mayor velocidad de lo que lo podíamos leer, pero su desarrollo era completamente predecible y esperar a que termine de pensar y nos de una respuesta a veces se hacía pesado", añaden. Sin embargo, para este equipo de expertos "ver el proceso de razonamiento resulta fascinante, pues ya es de por sí un añadido y a veces es más revelador que la propia respuesta. Posiblemente si se usa un modelo de razonamiento, hay que cambiar la metodología de trabajo para usarlo como ayudante". Al usarlo con documentación para que la analice, extraiga conclusiones, elabore resúmenes o compare, el grupo planteó hacerlo con documentación bien procesada. "En concreto, con apuntes docentes de nuestra elaboración que sugerimos a los alumnos para su análisis, así podíamos juzgar si el resultado se parecería a lo que nosotros habríamos hecho", detallan. El resultado es que "la calidad de las respuestas es comparable. Es perfectamente posible y DeepSeek puede sustituir a GPT 4.o sin problemas". Por otra parte, el equipo hizo pruebas en las tres versiones que les parecieron interesantes (14b, 32b y 70b) e indica que "gracias al wrapper usado [se utiliza para encapsular y organizar elementos dentro de una interfaz bien definida] es posible imitar algunas de las funcionalidades de ChatGPT, como la de crear asistentes". "Es una tarea más pesada, y para poder usar el asistente es más farragoso que con ChatGPT, pero es perfectamente posible. Y no es cosa de DeepSeek, sino del wrapper. El modelo presentado por los investigadores chinos cumple perfectamente", concluyen. Asistencia de programación Los modelos utilizados eran de pago y en el caso concreto de la asistencia de programación se utilizó ChatGPT 4.0, Sonnet 3.5 y DeepSeek R1. La razón de optar por estos modelos es que "ya vienen preasignados en las herramientas de programación como Cursor.ai, Roo cline y Windsurf". "Estas son de suscripción mensual y se destaca que DeepSeek es mucho más económico y consume cuatro veces menos crédito disponible que las otras", subrayan. Las pruebas estuvieron enfocadas a analizar si con las citadas herramientas y, depende de con qué modelo, se puede llegar más lejos en el campo del prototipado. Por ello es más correcto hablar de una combinación modelo-herramienta. Así,"como ayudante a la programación, Roo Cline [add on para Visual Studio Code] es casi tan bueno como Claude Sonnet 3.5 -el referente actual-. Es una alternativa plausible, algo más lenta que usar el modelo remoto, pero válida". "Nuestra recomendación es que se vayan alternando los modelos ya que pueden dar enfoques diferentes al mismo prompt y será decisión del programador aceptar un enfoque u otro", afirman. En resumen, la experiencia les lleva a señalar que "DeepSeek está por encima de ChatGPT y por debajo de Claude Sonnet 3.5; pero esto puede cambiar en cuestión de días", advierten. Además, el modelo chino "añade un diálogo que explicita su estructura de razonamiento, lo que a un programador novel le resultaría muy útil para entender la programación que está generando". Cuentas abiertas Pernías explica que para usar las "Application Programming Interfaces (API)" que los modelos ofrecen -"casi todos lo hacen"-, es necesario abrir una cuenta con cada uno de ellos. En su opinión, esto tiene dos inconvenientes: el gasto en cuentas abiertas en cada modelo y la reprogramación para poder acceder a los distintos modelos. En resumen, lo que proponen es, "sobre todo hasta que el panorama se aclare y haya menos jugadores en el campo, es que se usen rúters de modelos como OpenRouter que con una sola cuenta y API permiten acceder a las funcionalidades de una lista interminable de modelos". Como apunte final, reiteran: "DeepSeek vuelve a ser muy barato". En este caso, el testeo se hizo usándolo desde un rúter de LLM como OpenRouter, pues es posible alternar modelos con un clic y probar si el modelo de 70B es mejor que el de 32B o cualquiera de sus destilados es muy sencillo". En las conclusiones técnicas, "resulta llamativo que el principal -con mucha diferencia- consumidor de tókens que se hacen vía Openrouter sea Cline".Para los expertos alicantinos, "este hecho indica que el uso de modelos de lenguaje para programar a través de herramientas (como las citadas) es masivo".

    Ver noticia original

    También te puede interesar

  • Examedia © 2024

    Desarrollado por