09/08/2025 06:42
09/08/2025 06:42
09/08/2025 06:41
09/08/2025 06:40
09/08/2025 06:38
09/08/2025 06:38
09/08/2025 06:38
09/08/2025 06:37
09/08/2025 06:37
09/08/2025 06:36
Buenos Aires » Infobae
Fecha: 09/08/2025 02:42
El desarrollo de algoritmos que permiten la cooperación entre modelos grandes y pequeños contribuye a un uso más eficiente de la energía, beneficiando a dispositivos con recursos limitados como teléfonos y autos autónomos (Europa Press) * Este contenido fue producido por expertos del Instituto Weizmann de Ciencias, uno de los centros más importantes del mundo de investigación básica multidisciplinaria en el campo de las ciencias naturales y exactas, situado en la ciudad de Rejovot, Israel. Así como las personas de diferentes países hablan distintos idiomas, los modelos de inteligencia artificial (IA) también crean diversos “idiomas” internos: un conjunto único de tokens que solo cada modelo entiende. Hasta hace poco, no existía forma de que los modelos desarrollados por diferentes empresas se comunicaran directamente, colaboraran o combinaran sus fortalezas para mejorar su rendimiento. Esta semana, en la Conferencia Internacional sobre Aprendizaje Automático (ICML) en Vancouver, Canadá, científicos del Instituto Weizmann de Ciencias y de Intel Labs presentan un nuevo conjunto de algoritmos que superan esta barrera, permitiendo a los usuarios beneficiarse del poder computacional combinado de modelos de IA trabajando juntos. Los nuevos algoritmos, ya disponibles para millones de desarrolladores de IA en todo el mundo, aceleran el rendimiento de los grandes modelos de lenguaje (LLM, por sus siglas en inglés), los modelos líderes actuales de IA generativa, en un promedio de 1,5 veces. Los LLM, como ChatGPT y Gemini, son herramientas poderosas, pero presentan desventajas significativas: son lentos y consumen grandes cantidades de poder de cómputo. En 2022, las principales empresas tecnológicas se dieron cuenta de que los modelos de IA, al igual que las personas, podían beneficiarse de la colaboración y la división del trabajo. Prof. David Harel y Nadav Timor ( Instituto Weizmann de Ciencias) Qué es la decodificación especulativa Esto llevó al desarrollo de un método llamado decodificación especulativa, en el que un modelo pequeño y rápido, con conocimientos relativamente limitados, hace una primera suposición al responder la consulta de un usuario, y un modelo más grande, más potente pero más lento, revisa y corrige la respuesta si es necesario. La decodificación especulativa fue adoptada rápidamente por los gigantes tecnológicos porque mantiene una precisión del 100 por ciento, a diferencia de la mayoría de las técnicas de aceleración, que reducen la calidad de la salida. Pero tenía una gran limitación: ambos modelos debían “hablar” exactamente el mismo idioma digital, lo que significaba que los modelos desarrollados por diferentes empresas no podían combinarse.“ Los gigantes tecnológicos adoptaron la decodificación especulativa, beneficiándose de un rendimiento más rápido y ahorrando miles de millones de dólares al año en costos de poder de procesamiento, pero solo ellos tenían acceso a modelos pequeños y rápidos que hablan el mismo idioma que los modelos grandes”, explica Nadav Timor, estudiante de doctorado en el equipo de investigación del Prof. David Harel en el Departamento de Ciencias de la Computación y Matemáticas Aplicadas del Instituto Weizmann, quien lideró el nuevo desarrollo. La decodificación especulativa, clave en la aceleración de IA, ahora es posible entre modelos de diferentes empresas gracias a las nuevas herramientas. Moshe Berchansky, Daniel Korat, Oren Pereg y Moshe Wasserblat ( Intel Labs / Instituto Weizmann de Ciencias) “En cambio, una startup que quisiera beneficiarse de la decodificación especulativa tenía que entrenar su propio modelo pequeño que coincidiera con el idioma del grande, y eso requiere mucha experiencia y costosos recursos computacionales”. Los nuevos algoritmos desarrollados por los investigadores de Weizmann e Intel permiten a los desarrolladores emparejar cualquier modelo pequeño con cualquier modelo grande, haciendo que trabajen en equipo. Para superar la barrera del idioma, los investigadores idearon dos soluciones. Primero, diseñaron un algoritmo que permite a un LLM traducir su salida desde su idioma interno de tokens a un formato compartido que todos los modelos pueden entender. En segundo lugar, crearon otro algoritmo que hace que dichos modelos se basen principalmente, en su trabajo colaborativo, en tokens que tienen el mismo significado entre modelos, de manera similar a palabras como “banana” o “internet”, que son casi idénticas en los idiomas humanos.“ Al principio, nos preocupaba que se ‘perdiera demasiada información en la traducción’ y que los diferentes modelos no pudieran colaborar de manera efectiva”, dice Timor. “Pero estábamos equivocados. Nuestros algoritmos aceleran el rendimiento de los LLM hasta 2,8 veces, lo que lleva a enormes ahorros en el gasto de poder de procesamiento”. Así como las personas de diferentes países hablan distintos idiomas, los modelos de IA también crean diversos "lenguajes" (Imagen Ilustrativa Infobae) La importancia de esta investigación ha sido reconocida por los organizadores de la ICML, quienes seleccionaron el estudio para una presentación pública, una distinción otorgada solo a alrededor del 1 por ciento de las 15.000 presentaciones recibidas este año. “Hemos resuelto una ineficiencia central en la IA generativa”, dice Oren Pereg, investigador sénior en Intel Labs y coautor del estudio. “Esto no es solo una mejora teórica; son herramientas prácticas que ya están ayudando a los desarrolladores a construir aplicaciones más rápidas e inteligentes”.En los últimos meses, el equipo publicó sus algoritmos en la plataforma de IA de código abierto Hugging Face Transformers, poniéndolos a disposición gratuita de desarrolladores de todo el mundo. Desde entonces, los algoritmos se han convertido en parte de las herramientas estándar para ejecutar procesos de IA eficientes. “Este nuevo desarrollo es especialmente importante para dispositivos periféricos, desde teléfonos y drones hasta autos autónomos, que deben depender de un poder de cómputo limitado cuando no están conectados a internet”, añade Timor. “Imaginen, por ejemplo, un auto autónomo guiado por un modelo de IA. En este caso, un modelo más rápido puede marcar la diferencia entre una decisión segura y un error peligroso”. Los nuevos algoritmos aceleran el rendimiento de los grandes modelos de lenguaje (LLM) en un promedio de 1,5 veces, y hasta 2,8 veces. También participaron en el estudio el Dr. Jonathan Mamou, Daniel Korat, Moshe Berchansky y Moshe Wasserblat de Intel Labs, y Gaurav Jain de d-Matrix. El Prof. David Harel ocupa la Cátedra de Profesor William Sussman de Matemáticas.
Ver noticia original