Microsoft presenta tres nuevos modelos de lenguaje para voz e imagen

La división de IA de la firma de Redmond ha presentado las herramientas MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, orientadas a la transcripción de audio, la síntesis de voz y la generación de imágenes, ya disponibles para su uso comercial.
7 de abril, 2026

Aunque parezca que Microsoft no está trabajando activamente en el área de la IA porque para su principal producto, que es Copilot, utiliza modelos externos a la compañía de Redmond como son los GPT de OpenAI y la familia Claude de Antrophic, lo cierto es que la firma estadounidense está bien viva en dicho ámbito, en el cual desarrolla principalmente modelos menos generalistas y más específicos, como los que ha presentado más recientemente. Estas soluciones abarcan tres áreas diferenciadas como son el procesamiento de texto, la generación de audio y la creación de material gráfico.

En el terreno del reconocimiento de voz, la primera de las novedades es MAI-Transcribe-1, un sistema diseñado para transcribir los veinticinco idiomas con mayor volumen de uso dentro del ecosistema de productos de la firma. Según los datos de la prueba de rendimiento de la industria FLEURS, el MAI-Transcribe-1 opera con la tasa de error de palabras más baja frente a las alternativas actuales del mercado, situándose concretamente en un 3,9%. Este soporte técnico está adaptado para funcionar en entornos reales ruidosos, y consigue una velocidad de procesamiento de lotes que multiplica por dos y medio la capacidad que ofrecía hasta ahora el servicio Azure Fast.

Por otro lado, la oferta corporativa se amplía con una solución dedicada íntegramente a la generación de voz sintética. Además de integrarse paulatinamente en aplicaciones como Copilot Audio Expressions y Copilot Podcasts, y de mantener la identidad del locutor en formatos de larga duración, el sistema MAI-Voice-1 permite crear voces personalizadas de forma rápida a partir de unos pocos segundos de grabación de audio. A nivel de rendimiento técnico, la eficiencia en el uso de las unidades de procesamiento gráfico facilita que el modelo sea capaz de generar un minuto completo de sonido en tan solo un segundo de procesamiento.

Finalmente, el tercer modelo es el MAI-Image-2 para la generación de imágenes, que destaca por la reproducción precisa de los detalles. Antes de este anuncio, la compañía ya había introducido una versión de su generador de imágenes que logró situarse entre los tres mejores modelos en la clasificación independiente Arena.ai. A partir de esa base, el despliegue actual amplía dicha tecnología y el nuevo modelo visual ha duplicado su velocidad de creación en los entornos de la compañía frente a ediciones anteriores.

La herramienta, que se está integrando progresivamente en el buscador Bing y en el programa de presentaciones PowerPoint, busca rendir sobretodo en la iluminación, los tonos de piel y la inserción de texto legible en gráficos. Agencias del sector publicitario ya la emplean, según Microsoft, y sus directivos explican que el sistema es capaz de interpretar con exactitud las complejas directrices artísticas de las campañas, respetando el trabajo artesanal subyacente de los profesionales del diseño.

Para facilitar la adopción de estos tres modelos de lenguaje, la compañía ha establecido un esquema de precios detallado que abandona el modelo de tarifas únicas, partiendo de un coste de 0,36 dólares por hora de uso para el servicio de transcripción. La generación de voz presenta una tarifa inicial de 22 dólares por cada millón de caracteres, mientras que la creación de imágenes tiene un precio de 5 dólares por cada millón de tokens para los datos de entrada, y de 33 dólares para el mismo volumen de datos en las imágenes resultantes.

Disponibles ya a través de Microsoft Foundry, esta plataforma proporciona a los responsables de tecnología de las organizaciones, las funciones de gobernanza necesarias para una implementación a gran escala segura y conforme a las normativas, tras haber sometido los sistemas a rigurosas pruebas de vulnerabilidad. Cabe destacar que existe un acceso adicional a través del entorno de pruebas MAI Playground, aunque dicho portal está restringido por el momento a los desarrolladores ubicados en Estados Unidos.