
MADRID, 12 (Portaltic/EP)
Google DeepMind ha presentado dos nuevos modelos que llevan la inteligencia artificial al mundo físico a través de la robótica, ambos basados en Gemini 2.0, para que los robots puedan realizar una mayor variedad de tareas complejas.
La inteligencia artificial ha demostrado una serie de capacidades para resolver problemas complejos utilizando el razonamiento multimodal. Sin embargo, estos avances se han limitado al mundo digital, sin llegar a transferir estas habilidades al mundo físico.
Para salvar esta brecha, Google DeepMind ha presentado Gemini Robotics y Gemini Robotics-ER, dos modelos de visión-lenguaje basados en Gemini 2.0 que permiten que los robots realicen “una gama de tareas reales más amplia que nunca”, como explican en blog de la compañía.
Gemini Robotics es, concretamente, un modelo avanzado de visión-lenguaje-acción (VLA) que incorpora acciones físicas como nueva modalidad para controlar directamente a los robots. Ello permite abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como plegar un origami o meter un bocadillo en una bolsa con cierre de zip.
Por su parte, Gemini Robotics-ER es un modelo de visión-lenguaje (VLM) con una comprensión espacial avanzada, que permite ejecutar programas utilizando el razonamiento corporal de Gemini. Con ello, mejora capacidades como la de apuntar y la detección 3D para, por ejemplo, intuir un agarre adecuado para coger una taza de café por el asa y una trayectoria segura para acercarse a ella.
Además, Google DeepMind ha anunciado una asociación con Apptronik para crear la próxima generación de robots humanoides. Agile Robots, Agility Robots, Boston Dynamics y Enchanted Tools también han podido acceder a Gemini Robotics-ER.
- Te recomendamos -