Microsoft publica Windows ML para agilizar la IA híbrida

Este software actúa como una capa intermedia que combina y optimiza el uso de los recursos de cómputo como la CPU, la GPU y la NPU para agilizar la ejecución de modelos de lenguaje.
29 de septiembre, 2025

La compañía de Redmond acaba de dar un paso de gigante en la carrera por convertirse en la plataforma favorita de los usuarios para ejecutar modelos de lenguaje en local e híbridos (con IA parcialmente en local y parcialmente en la nube) con el lanzamiento comercial de Windows ML, un middleware cuyo cometido es el de unificar los recursos de hardware del ordenador regido por Windows 11, para de esta forma optimizar la ejecución de modelos de lenguaje de IA.

Los ordenadores poseen distintos elementos que pueden realizar tareas de cálculo y procesamiento de datos, como la CPU, la GPU y, los más modernos, la NPU, que es un elemento dirigido específicamente a las tareas de la inteligencia artificial (las siglas significan Neural Processing Unit, unidad de procesamiento neuronal, que simula el funcionamiento de la mente humana), elementos cada uno de ellos que deben tratarse por separado con las tecnologías de programación y ejecución existentes actualmente.

Lo que hace Windows ML es tratar los distintos elementos del hardware como un todo único y, por lo tanto, facilitando que los modelos de lenguaje extraigan la máxima potencia de cada ordenador, independientemente de que la máquina disponga de NPU, o que la potencia de la CPU o la GPU sea muy grande.

Es, al fin y al cabo, la suma de los factores (del hardware) lo que favorece al producto (la ejecución del software). Y, además, otra ventaja es que soporta múltiples arquitecturas sin obligar al implementador de los modelos de lenguaje a nada.

La principal ventaja de ejecutar modelos de lenguaje en local en vez de en servidores ajenos (como en el caso de ChatGPT, Gemini o Claude, por citar sólo algunos) es la confidencialidad de los datos, puesto que ya se han dado casos de filtraciones al utilizar dichos servicios en la nube. Si ejecutamos el modelo en local para ayudarnos a procesar datos sensibles, nos aseguramos que no haya filtraciones de datos que afecten a nuestra organización o a terceras partes.

Además, también nos permite trabajar con la IA cuando no disfrutamos de conexión a Internet como, por ejemplo, durante un vuelo.

Para los técnicos, Windows ML es compatible con ONNX Runtime, por lo que permite reutilizar sus API y facilita la transición de cargas ya desplegadas. El sistema operativo asume la distribución y el mantenimiento de ONNX Runtime y de los Execution Providers (EPs, y que sería otro middleware similar a una suerte de ‘drivers’ que facilitan la ejecución de modelos de lenguaje en el hardware concreto), reduciendo tareas de empaquetado para las aplicaciones.

Los EPs actúan como puente entre el runtime y los distintos chips de AMD, Intel, NVIDIA y Qualcomm. Con ONNX como formato de modelo, la integración con flujos actuales es directa, y es posible convertir modelos desde PyTorch mediante AI Toolkit para VS Code para desplegarlos después en equipos con Windows 11.

Microsoft señala que ha trabajado con las fabricantes de chips antes mencionadas para aprovechar CPUs, GPUs y NPUs de fabricación más reciente. Estas empresas partners desarrollan y mantienen sus EPs, que Windows ML distribuye y registra para ejecutar inferencias con el mejor rendimiento posible en cada plataforma.

En este marco, AMD integra soporte de Windows ML en su plataforma Ryzen AI, mediante un EP propio que cubre NPU, GPU y CPU. Intel combina su software OpenVINO con Windows ML para permitir la selección de CPU, GPU o NPU en equipos con procesadores Intel Core Ultra. Por su parte, NVIDIA ofrece TensorRT for RTX como EP para ejecutar modelos en GPUs GeForce RTX y RTX PRO, generando motores de inferencia optimizados para cada sistema.

Qualcomm y Microsoft han trabajado para optimizar modelos y aplicaciones de Windows ML sobre la NPU de la serie Snapdragon X usando el EP Qualcomm Neural Network, además de GPU y CPU vía integración con los EPs de ONNX Runtime.

Para preparar y desplegar modelos para su ejecución sobre Windows ML, el AI Toolkit para VS Code centraliza conversión a ONNX desde PyTorch, cuantización, optimización, compilación y evaluación. Además, la AI Dev Gallery ofrece un espacio interactivo para experimentar con escenarios locales usando modelos personalizados sobre Windows ML.

Esta suerte de runtime también se incluye en el Windows App SDK a partir de la versión 1.8.1 y es compatible con dispositivos que ejecuten Windows 11 24H2 o posterior. Microsoft invita a actualizar los proyectos a la última versión del SDK y a utilizar las API de Windows ML para inicializar EPs, cargar modelos ONNX y empezar a inferir, remitiendo a documentación y ejemplos prácticos para profundizar.