«Hemos tenido un gran avance». Toyota, el MIT y la Escuela de Ingeniería de Columbia han mostrado resultados impresionantes de un nuevo enfoque de aprendizaje de IA que acelera enormemente la velocidad con la que los robots pueden adquirir nuevas habilidades. Parece un momento ChatGPT para la robótica. Estamos viviendo al amanecer de la era de la robótica de propósito general. Docenas de empresas han decidido que es hora de invertir en grande en robots humanoides que pueden navegar de manera autónoma por los espacios de trabajo existentes y comenzar a asumir tareas de los trabajadores humanos.

La mayoría de los casos de uso tempranos, sin embargo, caen en lo que yo llamaría la categoría Planet Fitness: los robots levantarán cosas y las pondrán abajo. Eso será excelente para la logística estilo almacén, cargando y descargando camiones y palés y demás, y moviendo cosas alrededor de fábricas. Pero no es muy glamoroso, y ciertamente no se acerca a la utilidad de un trabajador humano.

Para que estas capacidades se expandan hasta el punto en que los robots puedan entrar en cualquier sitio de trabajo y comenzar a asumir una variedad de tareas, necesitan una forma de mejorar rápidamente sus habilidades, basándose en instrucciones o demostraciones humanas. Y es ahí donde Toyota afirma haber logrado un gran avance, con un nuevo enfoque de aprendizaje basado en la Política de Difusión que, según dice, abre la puerta al concepto de Modelos de Comportamiento a Gran Escala.

El nuevo sistema de aprendizaje está dominando una serie de tareas complejas de dos manos que involucran herramientas, como este batidor de huevos El nuevo sistema de aprendizaje está dominando una serie de tareas complejas de dos manos que involucran herramientas, como este batidor de huevosInstituto de Investigación Toyota La Política de Difusión es un concepto que Toyota ha desarrollado en asociación con la Escuela de Ingeniería de Columbia y el MIT, y aunque los detalles se vuelven muy arcanos a medida que se profundiza en esto, el grupo describe la idea general como «una nueva forma de generar comportamiento robótico representando la policía visuomotora de un robot como un proceso de difusión de desruido condicional». Puedes aprender más y ver algunos ejemplos en el artículo de investigación del grupo.

Esencialmente, donde los Modelos de Lenguaje a Gran Escala (LLMs) como ChatGPT pueden ingerir miles de millones de palabras de escritura humana y enseñarse a escribir y codificar, e incluso razonar, a un nivel asombrosamente cercano a los humanos, la Política de Difusión permite a las IA robóticas observar cómo un humano realiza una tarea física en el mundo real y luego programarse esencialmente para realizar esa tarea de manera flexible.

Mientras que algunas startups han estado enseñando a sus robots a través de telepresencia en realidad virtual, dando a un operador humano exactamente lo que los ojos del robot pueden ver y permitiéndoles controlar las manos y brazos del robot para realizar la tarea, el enfoque de Toyota está más enfocado en la háptica. Los operadores no usan un casco de realidad virtual, pero reciben retroalimentación háptica de los agarres suaves y flexibles del robot a través de sus controles de mano, permitiéndoles en cierto sentido sentir lo que el robot siente a medida que sus manipuladores entran en contacto con objetos.

Agarres suaves con retroalimentación háptica dan a la IA un sentido críticamente importante del tacto físico Agarres suaves con retroalimentación háptica dan a la IA un sentido críticamente importante del tacto físicoInstituto de Investigación Toyota Una vez que un operador humano ha mostrado a los robots cómo hacer una tarea varias veces, bajo condiciones ligeramente diferentes, la IA del robot construye su propio modelo interno de cómo se ven el éxito y el fracaso, y luego ejecuta miles y miles de simulaciones basadas en física basadas en sus modelos internos de la tarea, para perfeccionar un conjunto de técnicas para hacer el trabajo.

«El proceso comienza con un maestro demostrando un pequeño conjunto de habilidades a través de teleoperación», dice Ben Burchfiel, quien lleva el divertido título de Gerente de Manipulación Dexterous. «Nuestra Política de Difusión basada en IA aprende en segundo plano en cuestión de horas. Es común que enseñemos a un robot por la tarde, lo dejemos aprender durante la noche y luego lleguemos a la mañana siguiente a un nuevo comportamiento funcional.»

El equipo ha utilizado este enfoque para entrenar rápidamente a los bots en más de 60 tareas pequeñas, principalmente basadas en la cocina, hasta ahora, cada una relativamente simple para el humano adulto promedio, pero cada una requiere que los robots averigüen por sí mismos cómo agarrar, sostener y manipular diferentes tipos de objetos, utilizando una variedad de herramientas y utensilios.

Para ser justos, eso es mejor de lo que mi hijo de cinco años puede manejar Para ser justos, eso es mejor de lo que mi hijo de cinco años puede manejarInstituto de Investigación Toyota Estamos hablando de usar un cuchillo para untar uniformemente un aderezo en una rebanada de pan, o usar una espátula para voltear un panqueque, o usar un pelador de papas para pelar papas. Ha aprendido a extender la masa en una base de pizza, luego verter la salsa sobre la base y esparcirla con una cuchara. Es espeluznantemente similar a ver a los niños pequeños averiguar las cosas. Míralo:

Enseñando a los Robots Nuevos Comportamientos Toyota dice que tendrá cientos de tareas bajo control para fin de año, y apunta a más de 1,000 tareas para fines de 2024. Como tal, está desarrollando lo que cree que será el primer Modelo de Comportamiento a Gran Escala, o LBM, un marco que eventualmente se expandirá para convertirse en algo parecido al equivalente robótico encarnado de ChatGPT. Es decir, un modelo completamente generado por IA de cómo un robot puede interactuar con el mundo físico para lograr ciertos resultados, que se manifiesta como un montón gigante de datos que es completamente inescrutable para el ojo humano.

El equipo está efectivamente poniendo en marcha el procedimiento mediante el cual los futuros propietarios y operadores de robots en todo tipo de situaciones podrán enseñar rápidamente a sus bots nuevas tareas según sea necesario, actualizando flotas enteras de robots con nuevas habilidades a medida que avanzan.

“Las tareas que estoy viendo realizar a estos robots son simplemente asombrosas: incluso hace un año, no habría predicho que estábamos cerca de este nivel de destreza diversa”, dice Russ Tedrake, vicepresidente de Investigación en Robótica en el Instituto de Investigación Toyota. “Lo que es tan emocionante de este nuevo enfoque es la tasa y fiabilidad con las que podemos agregar nuevas habilidades. Debido a que estas habilidades funcionan directamente desde imágenes de cámara y detección táctil, utilizando solo representaciones aprendidas, son capaces de funcionar bien incluso en tareas que involucran objetos deformables, tela y líquidos, todos los cuales han sido tradicionalmente extremadamente difíciles para los robots”.

Una muestra de las más de 60 tareas que el equipo ha enseñado ahora a los robots utilizando este nuevo sistema de aprendizaje rápido Una muestra de las más de 60 tareas que el equipo ha enseñado ahora a los robots utilizando este nuevo sistema de aprendizaje rápidoInstituto de Investigación Toyota Presumiblemente, el LBM que Toyota está construyendo actualmente requerirá robots del mismo tipo que está usando ahora, unidades personalizadas diseñadas para tareas de manipulación dual y hábil con un enfoque especial en habilitar la retroalimentación háptica y la detección táctil. Pero no se necesita mucha imaginación para extrapolar la idea a un marco que los robots humanoides con dedos y pulgares oponibles puedan usar para ganar control de un rango aún más amplio de herramientas diseñadas para uso humano.

Y presumiblemente, a medida que el LBM desarrolle una comprensión más y más completa del mundo físico a través de miles de diferentes tareas, objetos, herramientas, ubicaciones y situaciones, y gane experiencia con una variedad de interrupciones dinámicas del mundo real y resultados inesperados, se volverá mejor y mejor en generalizar a través de tareas.

Cada día, la marcha inexorable de la humanidad hacia la singularidad tecnológica parece acelerarse. Cada paso, como este, representa un logro asombroso, y sin embargo, cada uno nos catapulta más hacia un futuro que se ve tan diferente de hoy, y mucho menos de hace 30 años, que parece casi imposible de predecir. ¿Cómo será la vida en 2050? ¿Cuánto realmente puedes poner fuera del rango de posibles resultados?

Abróchate amigos, este viaje no está desacelerando.

Fuente:

Toyota Research Institute

Únete a la comunidad

Más de 14.212 personas se han unido a nuestra newsletter. Prometemos enviarte sólo cosas interesantes.

Gracias por suscribirte.

Share This