F5 ha anunciado la disponibilidad comercial de la nueva versión de BIG‑IP Next for Kubernetes, optimizada para ejecutarse de forma nativa sobre las DPUs NVIDIA BlueField‑3 y el framework DOCA. El objetivo de la actualización es proporcionar mayor rendimiento, control y seguridad en entornos de IA que dependen de cargas de trabajo distribuidas y de alto volumen de datos.
La validación de Sesterce confirma un ahorro de hasta un 20% en el uso de GPU, además de mejoras en multi‑tenancy y protección del tráfico. La compañía francesa, especializada en infraestructura de IA soberana; ha comprobado que la nueva combinación reduce la latencia y mantiene un rendimiento estable incluso cuando varios clientes comparten el mismo clúster de Kubernetes.
La integración con NVIDIA Dynamo y su KV Cache Manager introduce un mecanismo de cacheo que evita recurrir continuamente a la memoria GPU para operaciones repetitivas. La integración con NVIDIA Dynamo y su KV Cache Manager acorta la latencia en la inferencia de modelos de lenguaje y aprovecha mejor la memoria disponible. Al descargar tareas rutinarias de la CPU a la DPU, las organizaciones pueden escalar la IA generativa con un menor coste operativo.
Otro avance radica en el enrutamiento inteligente de peticiones LLM sobre la DPU BlueField‑3, que coopera con los microservicios NVIDIA NIM. El enrutamiento inteligente de peticiones LLM sobre la DPU permite asignar cada consulta al modelo más adecuado, optimizando rendimiento y costes. Las solicitudes sencillas se derivan a modelos ligeros, mientras que los modelos más avanzados se reservan para preguntas complejas o específicas de dominio, reduciendo el tiempo de respuesta y el consumo de recursos.
La solución también incorpora un proxy inverso para el Model Context Protocol (MCP), estándar promovido por Anthropic. Con la programabilidad de F5 iRules, las organizaciones pueden adaptar rápidamente las políticas de seguridad y responder a la evolución del protocolo, reforzando la protección frente a amenazas emergentes.
Según la dirección de Sesterce, el balanceo dinámico de F5 distribuye el tráfico de Kubernetes con mayor eficiencia y aporta flexibilidad a la hora de ofrecer servicios diferenciados a sus clientes. Por su parte, portavoces de F5 y NVIDIA destacan que la lógica de enrutamiento en la propia DPU abre la puerta a nuevos casos de uso y contribuye a escalar la IA empresarial sin penalizar la experiencia de usuario.
F5 ya ofrece la nueva versión de BIG‑IP Next for Kubernetes en producción, lista para despliegues empresariales a gran escala. Los interesados pueden ampliar la información técnica en los canales corporativos de F5.



