Red Hat impulsa la inferencia de IA empresarial con una plataforma unificada

Red Hat presenta Red Hat AI 3, una evolución de su plataforma de IA que integra RHEL AI, OpenShift AI y AI Inference Server para acelerar el paso de las pruebas de concepto a la producción, con foco en la inferencia distribuida y la colaboración entre equipos.
16 de octubre, 2025
Digital Inside_redhat_IA

Red Hat ha anunciado Red Hat AI 3 como nueva iteración de su plataforma de inteligencia artificial para entornos corporativos. La compañía integra en una misma propuesta Red Hat AI Inference Server, Red Hat Enterprise Linux AI (RHEL AI) y Red Hat OpenShift AI, con el objetivo de simplificar la inferencia de alto rendimiento a gran escala y agilizar el salto de la prueba de concepto a la puesta en producción. El movimiento se produce en un contexto en el que, según el proyecto NANDA del Instituto Tecnológico de Massachusetts, alrededor del 95% de las organizaciones no obtienen retornos financieros cuantificables pese a inversiones empresariales en IA estimadas en unos 40.000 millones de dólares.

Del entrenamiento a la acción

A medida que las iniciativas pasan a producción, el foco se desplaza del entrenamiento y ajuste de modelos hacia la inferencia, entendida como la fase de ejecución de la IA en entornos reales. Red Hat AI 3 prioriza una inferencia escalable y coste-eficiente, apoyándose en los proyectos comunitarios vLLM y llm-d y en optimizaciones propias para ofrecer un servicio de LLM con calidad de producción. Con ello, plantea una experiencia más consistente para CIOs y responsables de TI, destinada a maximizar inversiones en aceleración de computación y a escalar cargas en escenarios híbridos y multicloud. La propuesta declara soporte para cualquier modelo y acelerador de hardware, desde el centro de datos hasta la nube pública, con escenarios de IA soberana y despliegues en el extremo de la red.

En este marco, Red Hat OpenShift AI 3.0 incorpora la disponibilidad general de llm-d, que replantea la ejecución de LLM de forma nativa sobre Kubernetes mediante inferencia distribuida. La solución se apoya en la orquestación de Kubernetes y el rendimiento de vLLM, y se complementa con tecnologías como Kubernetes Gateway API Inference Extension, la biblioteca de transferencia de datos de baja latencia NVIDIA Dynamo (NIXL) y la biblioteca de comunicación DeepEP para arquitecturas Mixture of Experts. Según Red Hat, esta combinación busca reducir costes y tiempos de respuesta mediante una programación de modelos optimizada, simplificar las operaciones con rutas prescriptivas de despliegue y ampliar la flexibilidad con soporte para aceleradores de distintos proveedores, incluidos NVIDIA y AMD.

llm-d transforma vLLM de un motor de un solo nodo en un sistema de servicio distribuido, coherente y escalable, estrechamente integrado con Kubernetes. El diseño apunta a ofrecer un rendimiento predecible, un retorno medible y una planificación de infraestructura más eficaz, abordando retos propios de cargas de LLM variables y de modelos de gran tamaño, incluidos los de tipo Mixture of Experts.

Una plataforma unificada para equipos de plataforma e IA

Red Hat AI 3 se presenta como una experiencia unificada y flexible que pretende armonizar flujos de trabajo entre equipos y favorecer la colaboración en aplicaciones de IA generativa listas para producción. Entre las novedades orientadas a productividad y eficiencia, la plataforma incorpora capacidades de Modelo como Servicio (MaaS) que permiten a los equipos de TI operar como proveedores internos de modelos, sirviendo activos de manera centralizada con acceso bajo demanda para desarrolladores y aplicaciones. Este enfoque está dirigido a mejorar el control de costes y a atender casos que no pueden ejecutarse en servicios públicos por cuestiones de privacidad o de datos.

La compañía añade un hub de IA desde el que los ingenieros de plataforma pueden explorar, desplegar y gestionar activos fundacionales. Este hub ofrece un catálogo curado de modelos (incluidos modelos generativos validados y optimizados), un registro para el ciclo de vida y un entorno de despliegue con configuración y monitorización sobre OpenShift AI. A ello se suma Gen AI studio, un entorno práctico para interactuar con modelos y prototipar con rapidez, apoyado en puntos finales de activos que facilitan el consumo de modelos y servidores MCP y en un playground integrado para experimentar con prompts y ajustar parámetros en casos como chat o generación aumentada por recuperación (RAG). La selección de modelos validados y optimizados incorpora opciones de código abierto como gpt-oss de OpenAI, DeepSeek-R1, así como Whisper para voz a texto y Voxtral Mini para agentes con capacidades de voz.

Bases para agentes de IA y personalización de modelos

Red Hat OpenShift AI 3.0 refuerza los cimientos para sistemas de IA agéntica escalables, no solo por las capacidades de inferencia, sino también por nuevas funciones de gestión de agentes. Para acelerar creación y despliegue, Red Hat introduce una capa de API unificada basada en Llama Stack, alineada con estándares del sector como interfaces LLM compatibles con OpenAI, y adopta de forma temprana el Protocolo de Contexto de Modelo (MCP) para facilitar la interacción de los modelos con herramientas externas.

En el terreno de la personalización, Red Hat AI 3 aporta un kit de herramientas modular y extensible construido sobre InstructLab, con bibliotecas Python especializadas para mayor control por parte de los desarrolladores. El conjunto se apoya en proyectos de código abierto como Docling para transformar documentos no estructurados en formatos legibles por IA, incorpora un marco flexible para generación de datos sintéticos y un hub de entrenamiento para ajuste fino de LLM. Un hub de evaluación integrado permite monitorizar y validar resultados para aprovechar con mayor confianza los datos propios y orientar la IA hacia resultados más pertinentes para cada organización.