La robótica y la inteligencia artificial están revolucionando la forma en que interactuamos con nuestro entorno. Google, ha implementado una nueva estrategia para entrenar a sus robots utilizando Gemini AI 1.5 Pro. Este enfoque no solo mejora las capacidades de navegación de los robots, sino que también optimiza la ejecución de tareas complejas.

Apple-Google-Gemini
Fuente de logo: Google

Introducción a la investigación: robots de Google

El equipo de robótica de DeepMind, una división de Google, ha publicado un estudio que revela cómo el uso de la ventana de contexto largo de Gemini 1.5 Pro facilita la interacción entre humanos y robots.

Esta tecnología permite que los robots procesen grandes cantidades de información, haciendo que la comunicación con ellos sea más fluida y natural. La capacidad de los modelos de IA para entender y ejecutar instrucciones verbales es un gran avance en la robótica moderna.

Aprendizaje mediante video: robots y Gemini AI 1.5 Pro

El método de entrenamiento incluye la grabación de recorridos en video de diferentes espacios, como hogares u oficinas. Los robots «observan» estos videos mediante Gemini 1.5 Pro, lo que les permite familiarizarse con el entorno.

Una vez que han absorbido esta información, los robots pueden responder a comandos específicos basados en lo que han aprendido. Por ejemplo, pueden identificar y guiar a un usuario hacia un enchufe simplemente observando un teléfono y recibiendo la instrucción «¿dónde puedo cargar esto?».

Es vital mencionar que la efectividad de este método ha sido demostrada con una tasa de éxito del 90% en más de 50 instrucciones en un área de más de 9,000 pies cuadrados.

Google Gemini AI y las evidencias preliminares de planificación

Un aspecto destacado de la investigación es la evidencia preliminar que sugiere que Gemini 1.5 Pro no solo mejora la navegación, sino también la capacidad de planificación de los robots.

En un ejemplo ilustrativo, cuando un usuario rodeado de latas de Coca-Cola pregunta si su bebida favorita está disponible, el robot comprende que debe dirigirse al refrigerador, verificar si hay Coca-Colas, y luego informar al usuario. Este tipo de comportamiento demuestra un nivel avanzado de comprensión y ejecución de tareas más allá de la simple navegación.

Google y robots: demostraciones y limitaciones

Aunque las demostraciones en video presentadas por Google son impresionantes, también revelan ciertos desafíos. Los cortes en los videos sugieren que los robots tardan entre 10 y 30 segundos en procesar y ejecutar las instrucciones. Este tiempo de respuesta, aunque razonable, indica que todavía hay margen para mejorar en términos de velocidad y eficiencia.

A pesar de estas limitaciones, la capacidad de estos robots para encontrar objetos perdidos, como llaves o carteras, muestra un gran potencial para su uso en el hogar y en entornos profesionales.

La implementación de Gemini AI 1.5 Pro en la robótica de Google representa un paso significativo hacia la creación de robots más inteligentes y útiles. Aunque aún hay desafíos por superar, el futuro de la robótica impulsada por inteligencia artificial se vislumbra prometedor, con aplicaciones prácticas que podrían facilitar enormemente nuestras vidas.

Vía The Verge