Red Hat ha presentado oficialmente llm-d, un nuevo proyecto de código abierto centrado en resolver uno de los principales retos técnicos de la IA generativa en producción: la inferencia a gran escala. El anuncio se enmarca en una alianza con socios estratégicos como CoreWeave, Google Cloud, IBM Research y NVIDIA. A esta colaboración se han sumado otras entidades relevantes del sector tecnológico, entre ellas AMD, Cisco, Intel, Hugging Face, Lambda y Mistral AI. Además, el proyecto cuenta con el respaldo académico de la Universidad de California, Berkeley, y la Universidad de Chicago.
El objetivo de llm-d es ofrecer una solución técnica que permita desplegar modelos de IA generativa de forma eficiente, segura y escalable. Para ello, integra una arquitectura basada en Kubernetes, utiliza la tecnología vLLM como motor de inferencia y emplea un enrutamiento de red con conciencia de IA para distribuir la carga de trabajo de manera inteligente entre servidores. Con ello, se busca garantizar el cumplimiento de objetivos de nivel de servicio (SLO) exigentes en entornos de producción.
La iniciativa parte de una constatación clara: aunque el entrenamiento sigue siendo esencial, la escalabilidad y eficiencia en la inferencia se han convertido en factores clave para desplegar aplicaciones reales de IA. Según datos de Gartner, más del 80% de los aceleradores en centros de datos estarán orientados a la inferencia antes de 2028, reflejando un cambio estructural en la cadena de valor de la IA.
La arquitectura de llm-d presenta una serie de componentes diseñados para optimizar el rendimiento y minimizar el coste total de propiedad (TCO) en entornos empresariales. Entre ellos destaca la separación de fases de procesamiento en prefill y decode, lo que permite distribuir la carga entre servidores, y la capacidad de descarga de caché KV, una técnica que desplaza la memoria intermedia de la GPU hacia soluciones de almacenamiento más económicas como CPU o red.
Además, llm-d integra controladores y clústeres basados en Kubernetes, que adaptan dinámicamente los recursos a las fluctuaciones de demanda, manteniendo baja la latencia y elevando el rendimiento. El proyecto también incorpora APIs de comunicación de alto rendimiento, con soporte para bibliotecas como NVIDIA Inference Xfer Library (NIXL), orientadas a mejorar la eficiencia del intercambio de datos entre nodos.
Otro aspecto destacado es su sistema de enrutamiento inteligente, que permite direccionar solicitudes hacia aquellos servidores que mantienen en memoria cálculos recientes, maximizando así la reutilización de datos y reduciendo el tiempo de respuesta en las operaciones de inferencia.
Una comunidad multisectorial al servicio de la IA abierta
El desarrollo de llm-d ha sido concebido desde el inicio como un proyecto de colaboración abierta, orientado a establecer un estándar común para la inferencia de modelos de lenguaje en múltiples entornos. A través de esta comunidad, Red Hat busca replicar el modelo que en su día convirtió a Linux en el núcleo operativo de las infraestructuras TI globales.
Entre sus impulsores se encuentran tanto fabricantes de aceleradores de IA, como AMD o Intel, como proveedores de infraestructura cloud y plataformas de modelos, como Hugging Face o Mistral AI. La participación de los laboratorios académicos responsables de vLLM (Sky Computing Lab) y de LMCache (Universidad de Chicago) refuerza el componente científico del proyecto, incorporando avances punteros en optimización de memoria y rendimiento.
Red Hat ha reiterado su intención de seguir fomentando un ecosistema donde cualquier organización pueda desplegar cualquier modelo de IA, en cualquier acelerador y en cualquier nube, sin depender de soluciones propietarias o infraestructuras específicas. Esta aproximación busca maximizar la interoperabilidad y facilitar la adopción de la IA generativa en sectores diversos.
Con la creación de llm-d, Red Hat se posiciona para liderar el desarrollo de un estándar abierto para la inferencia distribuida, potenciando el uso de vLLM como tecnología base. La iniciativa refuerza su estrategia en torno a la nube híbrida, buscando que los entornos empresariales puedan integrar la IA generativa de forma nativa, sin rupturas tecnológicas ni restricciones de infraestructura.
En este contexto, la inferencia se convierte en el nuevo núcleo operativo de la inteligencia artificial aplicada. Proyectos como llm-d no solo responden a la demanda creciente de escalabilidad y eficiencia, sino que buscan crear una plataforma técnica que permita a las empresas innovar de forma sostenible en IA, sin exponerse a costes prohibitivos ni cuellos de botella tecnológicos.