La organización de investigación de inteligencia artificial OpenAI ha logrado un nuevo hito en su búsqueda para construir robots de autoaprendizaje de uso general. La división de robótica del grupo dice que Dactyl, su mano robótica humanoide desarrollada por primera vez el año pasado, aprendió a resolver el cubo de Rubik con una sola mano. OpenAI ve la hazaña como un salto adelante tanto por la destreza de los apéndices robóticos como por su propio software de inteligencia artificial, que le permite a Dactyl aprender nuevas tareas usando simulaciones virtuales antes de que se presente un desafío real y físico que superar.
En un video de demostración que muestra el nuevo talento de Dactyl, podemos ver cómo la mano robótica avanza hacia un cubo completo resuelto con maniobras torpes pero precisas. Tarda muchos minutos, pero Dactyl finalmente puede resolver el rompecabezas. Es algo inquietante verlo en acción, aunque solo sea porque los movimientos se ven notablemente menos fluidos que los humanos y especialmente inconexos en comparación con la velocidad cegadora y la destreza bruta que se muestran cuando un speedcuber humano resuelve el cubo en cuestión de segundos.
Pero para OpenAI, el logro de Dactyl lo acerca un paso más a un objetivo muy solicitado para las industrias más amplias de IA y robótica: un robot que puede aprender a realizar una variedad de tareas del mundo real, sin tener que entrenar durante meses o años. tiempo real y sin necesidad de ser programado específicamente.
Imagen: OpenAI
"Muchos robots pueden resolver los cubos de Rubik muy rápido. La diferencia importante entre lo que hicieron allí y lo que estamos haciendo aquí es que esos robots están diseñados especialmente ", dice Peter Welinder, científico investigador y líder de robótica en OpenAI. "Obviamente no hay forma de que puedas usar el mismo robot o el mismo enfoque para realizar otra tarea. El equipo de robótica de OpenAI tiene ambiciones muy diferentes. Estamos tratando de construir un robot de uso general. Similar a cómo los humanos y cómo nuestras manos humanas pueden hacer muchas cosas, no solo una tarea específica, estamos tratando de construir algo que sea mucho más general en su alcance ".
Welinder hace referencia a una serie de robots en los últimos años que han empujado la solución de cubos de Rubik mucho más allá de las limitaciones de las manos y las mentes humanas. En 2016, el fabricante de semiconductores Infineon desarrolló un robot específicamente para resolver un cubo de Rubik a velocidades sobrehumanas, y el bot logró hacerlo en menos de un segundo. Eso aplastó el récord mundial humano de menos de cinco segundos en ese momento. Dos años después, una máquina desarrollada por el MIT resolvió un cubo en menos de 0,4 segundos. A finales de 2018, un canal japonés de YouTube llamado Human Controller incluso desarrolló su propio cubo de Rubik de resolución automática utilizando un núcleo impreso en 3D conectado a servomotores programables.
En otras palabras, un robot construido para una tarea específica y programado para realizar esa tarea de la manera más eficiente posible generalmente puede ser mejor para un ser humano, y la resolución de cubos de Rubik es algo que el software ha dominado hace mucho tiempo. Por lo tanto, desarrollar un robot para resolver el cubo, incluso uno humanoide, no es tan notable por sí solo, y menos a la velocidad lenta que opera Dactyl.
Pero el robot Dactyl de OpenAI y el software que lo impulsa son muy diferentes en diseño y propósito que una máquina dedicada para resolver cubos. Como dice Welinder, el trabajo de robótica en curso de OpenAI no tiene como objetivo lograr resultados superiores en tareas estrechas, ya que eso solo requiere que desarrolle un mejor robot y lo programe en consecuencia. Eso se puede hacer sin inteligencia artificial moderna.
En cambio, Dactyl se desarrolla desde cero como una mano robótica de autoaprendizaje que aborda nuevas tareas de manera muy similar a como lo haría un humano. Está entrenado usando un software que intenta, de manera rudimentaria en este momento, replicar los millones de años de evolución que nos ayudan a aprender a usar nuestras manos instintivamente como niños. Eso podría algún día, OpenAI espera, ayudar a la humanidad a desarrollar los tipos de robots humanoides que solo conocemos de la ciencia ficción, robots que pueden operar de manera segura en la sociedad sin ponernos en peligro y realizar una amplia variedad de tareas en entornos tan caóticos como las calles de la ciudad y las fábricas. .
Para aprender a resolver el cubo de Rubik con una sola mano, OpenAI no programó explícitamente a Dactyl para resolver el juguete; El software libre en Internet puede hacerlo por usted. También eligió no programar movimientos individuales para que la mano los realizara, ya que quería discernir esos movimientos por sí mismo. En cambio, el equipo de robótica le dio al software subyacente de la mano el objetivo final de resolver un cubo revuelto y usó inteligencia artificial moderna, específicamente una marca de aprendizaje profundo basado en incentivos llamado aprendizaje de refuerzo, para ayudarlo en el camino para resolverlo por sí mismo. El mismo enfoque para entrenar agentes de IA es cómo OpenAI desarrolló su clase mundial dota 2 larva del moscardón.
Pero hasta hace poco, era mucho más fácil entrenar a un agente de inteligencia artificial para que haga algo virtualmente, por ejemplo, jugar un juego de computadora, que entrenarlo para realizar una tarea del mundo real. Esto se debe a que el software de entrenamiento para hacer algo en un mundo virtual puede acelerarse, de modo que la IA puede pasar el equivalente a decenas de miles de años entrenando en solo meses de tiempo del mundo real, gracias a miles de CPU de alta gama y ultra GPU potentes que trabajan en paralelo.
Hacer ese mismo nivel de entrenamiento realizando una tarea física con un robot físico no es factible. Es por eso que OpenAI está tratando de ser pionero en nuevos métodos de entrenamiento robótico utilizando entornos simulados en lugar del mundo real, algo con lo que la industria de la robótica apenas ha experimentado. De esa manera, el software puede practicar ampliamente a un ritmo acelerado en muchas computadoras diferentes simultáneamente, con la esperanza de que conserve ese conocimiento cuando comience a controlar un robot real.
Debido a la limitación del entrenamiento y las obvias preocupaciones de seguridad, los robots que se usan comercialmente hoy en día no utilizan IA y, en cambio, están programados con instrucciones muy específicas. "La forma en que se ha abordado en el pasado es que utiliza algoritmos muy especializados para resolver tareas, donde tiene un modelo preciso tanto del robot como del entorno en el que está operando", dice Welinder. "Para un robot de fábrica, tienes modelos muy precisos de esos y sabes exactamente el entorno en el que estás trabajando. Sabes exactamente cómo va a recoger la parte en particular ".
Esta es también la razón por la cual los robots actuales son mucho menos versátiles que los humanos. Se requiere una gran cantidad de tiempo, esfuerzo y dinero para reprogramar un robot que ensambla, por ejemplo, una parte específica de un automóvil o un componente de la computadora para hacer otra cosa. Presente un robot que no haya sido entrenado adecuadamente, incluso con una tarea simple que implique cualquier nivel de destreza humana o procesamiento visual y fallaría miserablemente. Sin embargo, con las técnicas modernas de IA, los robots podrían modelarse como los humanos, de modo que puedan usar la misma comprensión intuitiva del mundo para hacer todo, desde abrir puertas hasta freír un huevo. Al menos, ese es el sueño.
Todavía estamos a décadas de distancia de ese nivel de sofisticación, y los saltos que la comunidad de IA ha dado en el lado del software, como los autos sin conductor, la traducción automática y el reconocimiento de imágenes, no se han traducido exactamente a los robots de la próxima generación. En este momento, OpenAI solo está tratando de imitar la complejidad de una parte del cuerpo humano y lograr que ese análogo robótico funcione de manera más natural.
Es por eso que Dactyl es una mano robótica de 24 articulaciones modelada a partir de una mano humana, en lugar de las pinzas robóticas estilo pinza o garra que se ven en las fábricas. Y para el software que impulsa a Dactyl a aprender a utilizar todas esas articulaciones de la forma en que lo haría un humano, OpenAI lo sometió a miles de años de entrenamiento en simulación antes de intentar resolver el cubo físico.

Imagen: OpenAI
"Si está entrenando cosas en el robot del mundo real, obviamente, lo que sea que esté aprendiendo está trabajando en lo que realmente quiere implementar su algoritmo. De esa manera, es mucho más simple. Pero los algoritmos de hoy necesitan muchos datos. Para entrenar a un robot del mundo real, para hacer algo complejo, se necesitan muchos años de experiencia ”, dice Welinder. "Incluso para un humano, lleva un par de años, y los humanos tienen millones de años de evolución para tener las capacidades de aprendizaje para operar una mano".
Sin embargo, en una simulación, Welinder dice que el entrenamiento se puede acelerar, al igual que con el juego y otras tareas populares como puntos de referencia de IA. “Esto toma el orden de miles de años para entrenar el algoritmo. Pero esto solo lleva unos días porque podemos paralelizar el entrenamiento. Tampoco tiene que preocuparse de que los robots rompan o lastimen a alguien mientras entrena estos algoritmos ", agrega. Sin embargo, los investigadores se han encontrado en el pasado con problemas considerables al intentar obtener capacitación virtual para trabajar en robots físicos. OpenAI dice que es una de las primeras organizaciones en ver realmente el progreso en este sentido.
Cuando le dieron un cubo real, Dactyl puso en práctica su entrenamiento y lo resolvió por sí solo, y lo hizo bajo una variedad de condiciones para las que nunca había sido entrenado explícitamente. Eso incluye resolver el cubo con una mano con un guante, con dos de sus dedos pegados, y mientras los miembros de OpenAI lo interfieren continuamente al pincharlo con otros objetos y bañarlo con burbujas y pedazos de papel como confeti.
“Descubrimos que en todas esas perturbaciones, el robot aún podía girar con éxito el cubo de Rubik. Pero no pasó por eso en el entrenamiento ", dice Matthias Plappert, el líder del equipo robótico de OpenAI de Welinder. "La robustez que encontramos cuando probamos esto en el robot físico nos sorprendió".
Es por eso que OpenAI ve la habilidad recién adquirida de Dactyl como igualmente importante tanto para el avance del hardware robótico como para el entrenamiento de IA. Incluso los robots más avanzados del mundo, como los robots humanoides y perros desarrollados por el líder de la industria Boston Dynamics, no pueden operar de forma autónoma, y requieren una extensa programación específica de tareas y una intervención humana frecuente para llevar a cabo incluso acciones básicas.
OpenAI dice que Dactyl es un paso pequeño pero vital hacia el tipo de robots que algún día podrían realizar tareas manuales o tareas domésticas e incluso trabajar junto a humanos, en lugar de en entornos cerrados, sin ninguna programación explícita que rija sus acciones.
En esa visión para el futuro, la capacidad de los robots para aprender nuevas tareas y adaptarse a entornos cambiantes dependerá tanto de la flexibilidad de la IA como de la robustez de la máquina física. "Estos métodos realmente están comenzando a demostrar que estas son las soluciones para manejar todas las complicaciones inherentes y el desorden del mundo físico en el que vivimos", dice Plappert.