RecursiveMAS: Speeding Up Multi-Agent Inference by 2.4x and Cutting Token Usage by 75%

Investigadores de la UIUC y Stanford desarrollaron RecursiveMAS, un framework que permite la comunicación de agentes IA en el espacio de embeddings en lugar de texto. Esto logra mejoras de rendimiento y eficiencia, acelerando la inferencia hasta 2.4 veces, reduciendo el consumo de tokens en un 75% y mejorando la precisión en tareas complejas.

¿Y si los sistemas de IA multi-agente pudieran comunicarse de forma telepática?

En el cambiante panorama de la inteligencia artificial, los sistemas multi-agente representan una de las fronteras más prometedoras para abordar problemas complejos. Sin embargo, su verdadero potencial a menudo se ve frenado por un cuello de botella fundamental: la forma en que los agentes se comunican entre sí. Tradicionalmente, los agentes de IA intercambian información generando y compartiendo secuencias de texto. Este enfoque, aunque intuitivo, introduce latencia, eleva drásticamente los costos de los tokens y dificulta el entrenamiento del sistema como una unidad cohesiva. La noción de que cada agente deba 'deletrear' su razonamiento intermedio token por token es inherentemente ineficiente, similar a si los humanos tuvieran que transcribir cada pensamiento antes de compartir una idea.

Investigadores de la Universidad de Illinois Urbana-Champaign y la Universidad de Stanford han abordado este desafío con RecursiveMAS, un framework innovador que permite a los agentes colaborar y transmitir información directamente a través del espacio de embeddings, evitando la necesidad de comunicación textual intermedia. Este cambio de paradigma no solo se traduce en ganancias significativas de eficiencia, sino también en mejoras notables de rendimiento. Los experimentos demuestran que RecursiveMAS logra una mejora promedio del 8.3% en la precisión en dominios complejos como la generación de código, el razonamiento médico y la búsqueda, mientras que aumenta la velocidad de inferencia en hasta 2.4 veces y reduce el uso de tokens en un impresionante 75%.

El Cuello de Botella de la Comunicación Textual entre Agentes

Los sistemas multi-agente tienen la capacidad de abordar tareas intrincadas que los sistemas de un solo agente no pueden manejar. No obstante, al escalar estos sistemas para aplicaciones del mundo real, surge un desafío considerable: cómo permitir que el sistema evolucione, mejore y se adapte a diversos escenarios con el tiempo. Los métodos convencionales de adaptación, como el refinamiento basado en prompts, mejoran las interacciones de los agentes al ajustar iterativamente el contexto compartido. Si bien esto guía a los agentes hacia respuestas más alineadas con el objetivo general, su limitación fundamental es que las capacidades de los modelos subyacentes de cada agente permanecen estáticas.

Un enfoque más sofisticado implica entrenar a los agentes actualizando los pesos de sus modelos subyacentes. Sin embargo, entrenar un sistema completo de agentes es computacionalmente exigente, ya que actualizar todos los parámetros en múltiples modelos es una tarea no trivial. Incluso si un equipo de ingeniería se compromete a entrenar sus modelos, el método estándar de comunicación basada en texto entre agentes crea grandes cuellos de botella. La dependencia de la generación secuencial de texto genera latencia, ya que cada modelo debe esperar a que el anterior termine de generar su texto antes de comenzar su propio procesamiento. Esta necesidad de que los modelos expliciten su razonamiento intermedio token por token es altamente ineficiente, infla severamente el uso de tokens, aumenta los costos de computación y ralentiza dolorosamente el aprendizaje iterativo en todo el sistema.

RecursiveMAS: Telepatía en el Espacio Latente

En lugar de intentar mejorar cada agente como un componente aislado, RecursiveMAS está diseñado para co-evolucionar y escalar todo el sistema multi-agente como un único todo integrado. El framework se inspira en los modelos de lenguaje recursivos (RLM). Mientras que en un modelo de lenguaje estándar los datos fluyen linealmente a través de una pila de capas distintas, un RLM reutiliza un conjunto de capas compartidas que procesan los datos y los retroalimentan a sí mismas. Al ciclar la computación, el modelo puede profundizar su razonamiento sin añadir parámetros.

RecursiveMAS extiende este principio de escalado desde un solo modelo a una arquitectura multi-agente que actúa como un sistema recursivo unificado. En esta configuración, cada agente funciona como una capa en un modelo de lenguaje recursivo. En lugar de generar texto, los agentes pasan iterativamente sus representaciones latentes continuas al siguiente agente en la secuencia, creando un flujo oculto de información en bucle que atraviesa el sistema. Esta transferencia latente continúa a través de todos los agentes. Cuando el último agente termina su procesamiento, sus salidas latentes se retroalimentan directamente al primer agente, iniciando una nueva ronda de recursión. Esta estructura permite que todo el sistema multi-agente interactúe, reflexione y refine su razonamiento colectivo a lo largo de múltiples rondas completamente en el espacio latente, con solo el último agente produciendo una salida textual en la ronda final. Es como si los agentes se comunicaran telepáticamente como un todo unificado, y el último agente proporcionara la respuesta final como texto.

El RecursiveLink: Uniendo Dimensiones de Embeddings

Para hacer posible la colaboración continua en el espacio latente, los autores introducen un componente arquitectónico especializado llamado RecursiveLink. Este es un módulo ligero de dos capas diseñado para transmitir y refinar los estados latentes de un modelo en lugar de obligarlo a decodificar texto. Los estados ocultos de la última capa de un modelo de lenguaje contienen la rica representación semántica de su proceso de razonamiento. El RecursiveLink está diseñado para preservar y transmitir esta información de alta dimensión de un espacio de embeddings a otro.

Para evitar el alto costo de actualizar cada parámetro en múltiples modelos de lenguaje grandes, el framework mantiene congelados los parámetros de los modelos. En su lugar, optimiza el sistema entrenando únicamente los parámetros de los módulos RecursiveLink. Para manejar tanto el razonamiento interno como la comunicación externa, el sistema utiliza dos variaciones del módulo. El RecursiveLink interno opera dentro de un agente durante su fase de razonamiento, tomando los embeddings recién generados por el modelo y mapeándolos directamente de nuevo a su propio espacio de embedding de entrada. Esto permite al agente generar continuamente un flujo de pensamientos latentes sin producir tokens de texto discretos.

El RecursiveLink externo sirve como puente entre agentes. Debido a que los agentes en un sistema del mundo real pueden usar diferentes arquitecturas y tamaños de modelos, sus espacios de embedding internos tienen dimensiones completamente diferentes. El RecursiveLink externo incluye una capa adicional diseñada para hacer coincidir los embeddings de la dimensión oculta de un agente con el espacio de embedding del siguiente agente. Durante el entrenamiento, primero se entrenan los links internos de forma independiente para “calentar” la capacidad de cada agente de pensar en embeddings latentes continuos. Luego, el sistema entra en el entrenamiento del bucle externo, donde los diversos modelos congelados se encadenan en un bucle y el sistema se evalúa en función de la salida textual final del último agente. Lo único que se actualiza en el proceso de entrenamiento son los parámetros del RecursiveLink, y los pesos del modelo original permanecen sin cambios, similar a la adaptación de bajo rango (LoRA). Otra ventaja surge cuando se tienen múltiples agentes sobre el mismo modelo base: los agentes pueden compartir el mismo modelo como 'cerebro' y usar el RecursiveLink como 'tejido conectivo', ahorrando memoria GPU y evitando entrenamientos separados.

Análisis Comparativo: Rendimiento y Ventajas de Costo

Los investigadores evaluaron RecursiveMAS en nueve benchmarks que abarcan matemáticas, ciencia y medicina, generación de código y respuesta a preguntas basada en búsqueda. Crearon un sistema multi-agente utilizando modelos de código abierto como Qwen, Llama-3, Gemma3 y Mistral, asignando roles para formar patrones de colaboración diversos como el razonamiento secuencial y la colaboración de mezcla de expertos.

RecursiveMAS fue comparado con líneas base bajo presupuestos de entrenamiento idénticos, incluyendo modelos autónomos mejorados con LoRA o fine-tuning supervisado completo, frameworks multi-agente alternativos como Mixture-of-Agents y TextGrad, y líneas base recursivas como LoopLM. También se comparó con Recursive-TextMAS, que utiliza la misma estructura de bucle recursivo que RecursiveMAS pero obliga a los agentes a comunicarse explícitamente a través de texto.

Característica	Sistemas Multi-Agente Tradicionales (basados en texto)	RecursiveMAS (basado en embeddings)
Comunicación	Secuencias de texto (token por token)	Embeddings latentes continuos
Latencia de Inferencia	Alta (generación de texto secuencial)	Significativamente reducida (flujo latente paralizable)
Uso de Tokens	Alto	Drásticamente reducido (hasta 75% menos)
Precisión Promedio	Baseline	Mejora del 8.3%
Velocidad de Inferencia	Baseline	1.2x a 2.4x más rápido
Costo de Entrenamiento	Alto (fine-tuning completo o LoRA por agente)	Bajo (menos de la mitad que fine-tuning completo)
Uso de Memoria GPU	Alto	El más bajo
Parámetros Entrenados	Parámetros del modelo completo o LoRA (millones/miles de millones)	Solo módulos RecursiveLink (~13 millones, 0.31% del total)

RecursiveMAS logró una mejora promedio del 8.3% en la precisión en comparación con las líneas base más fuertes. Destacó especialmente en tareas de razonamiento intensivo, superando a métodos de optimización basados en texto como TextGrad en un 18.1% en AIME2025 y un 13% en AIME2026. Al evitar la generación de texto en cada paso, RecursiveMAS logró una aceleración de la inferencia de extremo a extremo de 1.2x a 2.4x. Además, es mucho más eficiente en el uso de tokens: en comparación con Recursive-TextMAS, reduce el uso de tokens en un 34.6% en la primera ronda de recursión y en un notable 75.6% en la tercera ronda. También resultó notablemente económico de entrenar, requiriendo la menor memoria GPU pico y reduciendo los costos de entrenamiento en más de la mitad en comparación con el fine-tuning completo, ya que solo actualiza los módulos RecursiveLink ligeros, que consisten en aproximadamente 13 millones de parámetros, alrededor del 0.31% de los parámetros entrenables de los modelos congelados.

Habilitando Flujos de Trabajo Agénticos para Empresas

Las ganancias de eficiencia ofrecidas por RecursiveMAS (menor consumo de tokens, menores requisitos de memoria GPU y una inferencia más rápida) están diseñadas para hacer que los complejos flujos de trabajo de agentes de varios pasos sean viables en entornos de producción. Abordan la sobrecarga computacional que actualmente limita las implementaciones agénticas empresariales. Este avance podría democratizar el acceso a sistemas multi-agente complejos, permitiendo que más organizaciones aprovechen su poder sin incurrir en costos prohibitivos. Los investigadores han liberado el código y los pesos de los modelos entrenados bajo la licencia Apache 2.0, allanando el camino para una adopción generalizada y una mayor innovación en el campo.

RecursiveMAS: Multiplicando la Velocidad de Inferencia Multi-Agente y Reduciendo el Uso de Tokens en un 75%

Puntos Clave

¿Y si los sistemas de IA multi-agente pudieran comunicarse de forma telepática?

El Cuello de Botella de la Comunicación Textual entre Agentes

RecursiveMAS: Telepatía en el Espacio Latente

El RecursiveLink: Uniendo Dimensiones de Embeddings

Análisis Comparativo: Rendimiento y Ventajas de Costo

Habilitando Flujos de Trabajo Agénticos para Empresas

RecursiveMAS: Multiplicando la Velocidad de Inferencia Multi-Agente y Reduciendo el Uso de Tokens en un 75%

Puntos Clave

¿Y si los sistemas de IA multi-agente pudieran comunicarse de forma telepática?

El Cuello de Botella de la Comunicación Textual entre Agentes

RecursiveMAS: Telepatía en el Espacio Latente

El RecursiveLink: Uniendo Dimensiones de Embeddings

Análisis Comparativo: Rendimiento y Ventajas de Costo

Habilitando Flujos de Trabajo Agénticos para Empresas

Articulos Recomendados

Fin Operator: El Agente de IA que Gestiona a Otros Agentes de IA Redefiniendo las Operaciones Empresariales

Accelerando: Un Estudio de Caso Especulativo en Arquitectura de IA Post-Singularidad

Δ-Mem: Memoria Online Eficiente para Modelos de Lenguaje Grandes