Google DeepMind introduce Gemini Robotics para llevar la IA al mundo físico

Con el lanzamiento de Gemini Robotics y Gemini Robotics-ER, Google DeepMind avanza en el desarrollo de modelos de IA capaces de interactuar con el entorno físico, abriendo nuevas posibilidades en el ámbito de la robótica.

Google DeepMind ha presentado Gemini Robotics, un modelo basado en Gemini 2.0 diseñado para dotar a los robots de capacidades avanzadas de interacción con el mundo físico gracias a la inteligencia artificial generativa. Esta innovación introduce la capacidad de ejecutar acciones físicas, además de interpretar información multimodal procedente de texto, imágenes, audio y vídeo.

Junto a este modelo, la compañía también ha desarrollado Gemini Robotics-ER, una variante optimizada para la comprensión espacial, que permite a los desarrolladores integrar la IA en sistemas de control robótico existentes.

Un modelo diseñado para mejorar la autonomía de los robots

Gemini Robotics se ha construido sobre tres principios fundamentales para la robótica avanzada:

  • Generalidad: capacidad para adaptarse a situaciones nuevas, incluyendo objetos y entornos no vistos durante el entrenamiento.
  • Interactividad: respuesta rápida y adaptativa a comandos en lenguaje natural y cambios en el entorno.
  • Destreza: ejecución de tareas complejas y de precisión, como manipulación de objetos pequeños o acciones de varios pasos.

Estas características permiten a Gemini Robotics duplicar el rendimiento de modelos previos en pruebas de generalización, lo que representa un avance significativo hacia la creación de robots de propósito general.

Ampliando la comprensión y capacidad de acción en el mundo físico

El modelo se ha entrenado para operar en distintos tipos de robots, que van desde las plataformas de doble brazo como ALOHA 2, hasta los sistemas basados en los brazos robóticos Franka, utilizados en entornos académicos. Además, se ha demostrado su compatibilidad con robots humanoides, como Apollo de Apptronik, diseñado para ejecutar tareas en entornos reales.

En paralelo, Gemini Robotics-ER introduce mejoras en percepción espacial, planificación y generación de código, lo que le permite realizar tareas como:

  • Detección y manipulación precisa de objetos en 3D.
  • Optimización de trayectorias de movimiento, asegurando un agarre seguro de objetos.
  • Generación de código para el control robótico, con tasas de éxito hasta tres veces superiores a las de Gemini 2.0.

Este modelo permite a los ingenieros en robótica desarrollar soluciones con mayor seguridad y autonomía, combinando la capacidad de detección con el aprendizaje en contexto.

Un enfoque responsable para el avance de la robótica

DeepMind ha enfatizado la importancia de la seguridad en el desarrollo de la IA aplicada a la robótica, implementando medidas de control en varios niveles:

  • Protección física: integración con controladores de seguridad para evitar colisiones y mantener la estabilidad de los robots móviles.
  • Comprensión semántica: Gemini Robotics-ER evalúa si una acción es segura antes de ejecutarla.
  • Desarrollo de un marco normativo: inspirado en las Tres Leyes de la Robótica de Asimov, DeepMind ha creado un sistema de reglas en lenguaje natural para regular el comportamiento de los robots.

Para mejorar la seguridad en la robótica basada en IA, la compañía ha desarrollado el ASIMOV dataset, un conjunto de datos diseñado para evaluar los riesgos de las acciones robóticas en escenarios reales.

Además de su colaboración con Apptronik, DeepMind ha extendido la disponibilidad de Gemini Robotics-ER a socios como Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools, con el objetivo de explorar sus aplicaciones en entornos industriales y comerciales.

Con estos avances, Google DeepMind se posiciona en la vanguardia del desarrollo de IA para robótica, sentando las bases para una nueva generación de robots más autónomos, seguros y versátiles.