IBM y Groq impulsan la inferencia de IA para pasar del piloto a producción

GroqCloud se incorporará en watsonx Orchestrate, con el objetivo de acelerar la implantación de IA basada en agentes mediante inferencia de alta velocidad y costes ajustados.
23 de octubre, 2025

IBM y Groq han anunciado una alianza para ofrecer GroqCloud en watsonx Orchestrate y acelerar el despliegue de IA agéntica en las empresa. El acuerdo contempla un enfoque conjunto de mercado y de tecnología que persigue poner a disposición de los clientes capacidades de inferencia de alta velocidad directamente en la plataforma de orquestación de IBM, orientadas a reducir costes y facilitar el paso de la fase de pruebas de concepto, a los entornos productivos.

Como parte de esta colaboración, ambas compañías planean integrar y mejorar la tecnología de código abierto vLLM de Red Hat con la arquitectura LPU de Groq, además de incorporar el soporte de los modelos Granite de IBM en GroqCloud para clientes de IBM. vLLM es un servidor de inferencia en forma de bilbioteca de código abierto que busca agilizar los resultados de las aplicaciones de inteligencia artificial generativa mediante un mejor uso de la memoria de la GPU.

La propuesta busca resolver las barreras de velocidad, coste y fiabilidad que frenan el paso de piloto a producción, unas limitaciones que afectan especialmente a sectores con requisitos críticos (sanidad, servicios financieros, administraciones públicas, comercio minorista y fabricación), donde se requiere un comportamiento predecible y tiempos de respuesta constantes a escala global. La combinación de la inferencia de Groq, centrada en rapidez y eficiencia de coste con acceso a modelos abiertos, y la orquestación de agentes de IBM pretende proporcionar la infraestructura necesaria para poder escalar.

Según la información facilitada, e impulsado por su propia LPU, GroqCloud aporta más de cinco veces mayor velocidad y eficiencia de coste que sistemas tradicionales basados en GPU. Desde GroqCloud afirman ser capaces de superar en más de cinco veces la velocidad y la eficiencia de coste de los sistemas con GPU, ofreciendo una latencia baja y rendimiento consistente incluso con cargas globales. Este comportamiento resulta especialmente relevante para la IA basada en agentes en industrias reguladas, donde la estabilidad del servicio es un requisito operativo.

En el ámbito sanitario, IBM expone que sus clientes reciben de forma simultánea miles de consultas complejas de pacientes. Con la tecnología de Groq, los agentes de IA pueden analizar información en tiempo real y responder de manera inmediata para mejorar la experiencia del usuario y apoyar decisiones más rápidas.

La colaboración también se aplica a sectores no regulados, como empresas de retail y gran consumo que están utilizando Groq para agentes de RRHH orientados a automatizar procesos y elevar la productividad de los empleados.

Desde IBM se subraya que las organizaciones suelen disponer de múltiples opciones de inferencia durante la experimentación, pero que al pasar a producción necesitan desplegar flujos de trabajo complejos con garantías para mantener la calidad de la experiencia, señalando que el enfoque conjunto con Groq se enmarca en facilitar tecnologías que permitan materializar despliegues de IA y generar valor de negocio.

Por su parte, Groq pone el acento en que, con su velocidad y la experiencia empresarial de IBM, se busca llevar la IA basada en agentes al uso corporativo, habilitando respuestas a escala y favoreciendo patrones en los que la IA actúe de manera inmediata y mejore de manera continua.

El acceso a GroqCloud para clientes de IBM se encuentra disponible de manera inmediata, mientras que el resto de las integraciones forman parte de una hoja de ruta sujeta a cambios. Los equipos conjuntos priorizarán ofrecer capacidades de inferencia de alta velocidad y alto rendimiento para casos como atención a clientes, soporte a empleados y mejora de la productividad, desplegar la IA con foco en seguridad y privacidad para atender exigencias regulatorias y de protección, y asegurar la integración con watsonx Orchestrate para que las organizaciones adopten patrones de agentes ajustados a cada uso.

La hoja de ruta contempla integrar y mejorar vLLM con la LPU de Groq con el fin de cubrir necesidades clave de los desarrolladores (orquestación de inferencia, balanceo de carga y aceleración por hardware) y agilizar el proceso de inferencia, permitiendo a watsonx aprovechar estas capacidades de manera familiar y sin salir de las herramientas preferidas por los clientes.

En conjunto, IBM y Groq plantean que esta colaboración amplía el acceso al potencial de la IA empresarial con foco en velocidad y en la aplicación práctica en entornos reales.