NVIDIA lanza nuevo modelo de lenguaje multimodal, con capacidad para texto, audio, vídeo e imágenes, y capacidades agénticas

El nuevo modelo de lenguaje de NVIDIA integra capacidades de visión, audio y texto en una sola arquitectura, lo que facilita a las organizaciones desplegar sistemas autónomos capaces de analizar interfaces gráficas y documentos complejos en tiempo real con menos costes operativos y mayor control sobre la privacidad de los datos.
2 de mayo, 2026

NVIDIA ha anunciado la salida al mercado de Nemotron 3 Nano Omni, un nuevo modelo de lenguaje grande (LLM), multimodal y de código abierto, diseñado para unificar la visión, el audio y el texto dentro de un único sistema, eliminando con ello la necesidad de utilizar modelos separados para cada una de estas tareas en los flujos de trabajo de inteligencia artificial.

El sistema mezcla desarrollos anteriores e incorpora tecnologías de procesamiento avanzado ofreciendo una ventana de contexto de 256.000 tokens. Toda esta estructura permite que el sistema procese entradas en multitud de formatos, incluyendo texto, imágenes, grabaciones de voz, secuencias de vídeo, documentos, gráficos e interfaces de usuario, para generar finalmente respuestas estructuradas en texto.

Hasta el momento, los sistemas basados en agentes precisaban ejecutar múltiples iteraciones a través de distintos programas específicos para analizar el material audiovisual y textual de manera secuencial. Este método tradicional genera incrementos en los tiempos de respuesta y fragmenta el contexto de los datos procesados, derivando en mayores costes y posibles inexactitudes con el paso del tiempo.

Al evitar estas inferencias repetidas mediante un diseño integrado, la tecnología alcanza, según NVIDIA, una capacidad de procesamiento nueve veces superior frente a otras alternativas de código abierto de interactividad similar, reduciendo los costes operativos sin mermar la capacidad de respuesta.

En la práctica, el software actúa como el mecanismo de percepción primaria dentro de un ecosistema más amplio, pudiendo operar de manera conjunta con otros modelos corporativos para ejecutar tareas complejas. La herramienta se integra tanto con soluciones de la propia familia Nemotron, destinadas a la ejecución rápida o a la planificación estructurada, como con sistemas de terceros alojados en la nube.

Entre sus principales aplicaciones corporativas destaca el uso autónomo de ordenadores. El modelo facilita que los sistemas naveguen por interfaces gráficas y analicen el contenido en pantalla trabajando con resoluciones nativas de 1920×1080 píxeles.

Otras áreas de aplicación de esta herramienta comprenden la inteligencia documental y el análisis conjunto de medios. El sistema permite la interpretación coherente de archivos mixtos corporativos y tablas estadísticas para tareas de cumplimiento normativo, y resulta útil en flujos de investigación o atención al cliente, puesto que permite enlazar en un único bloque de razonamiento lo que se visualiza, lo que se escucha y el historial documentado del usuario.

Al haberse distribuido garantizando el acceso abierto a sus componentes internos y técnicas de entrenamiento, NVIDIA facilita la adaptación de este modelo a sectores específicos y su despliegue local cumpliendo con las normativas de soberanía de datos.

Los responsables de TI en las organizaciones disponen de capacidad de control sobre la personalización del código mediante plataformas de desarrollo especializadas como NVIDIA NeMo. Además, el formato de la arquitectura soporta su instalación de manera consistente tanto en equipos de hardware local de gamas como Jetson y DGX, como en grandes centros de datos y servidores remotos.

El sistema de razonamiento ya se encuentra disponible a través de repositorios como Hugging Face y OpenRouter, así como en formato de microservicio dentro de la plataforma para desarrolladores de la propia compañía y sus socios de infraestructura.