Google analiza el nuevo modelo de aprendizaje por refuerzo en un nuevo documento de "clasificación fuera de política"

Un equipo de investigadores de AI en Google ha recientemente
publicó un documento titulado "Evaluación fuera de política a través de clasificación fuera de política"
en su blog. El documento habla de "clasificación fuera de política" u OPC, como la
los investigadores lo llaman, que evalúa el rendimiento de los agentes impulsados por la IA mediante el tratamiento
La evaluación como problema de clasificación.

El equipo dice que su enfoque, que incluye una variante de aprendizaje de refuerzo que utiliza recompensas para impulsar las políticas de software hacia objetivos, funciona con entradas de imagen y escala a las tareas, incluida la comprensión robótica basada en la visión.

Alex Irpan, ingeniero de software de Google, dijo: “El aprendizaje de refuerzo totalmente fuera de la política es una variante en la que un agente aprende completamente de datos antiguos, lo cual es atractivo porque permite la iteración del modelo sin necesidad de un robot físico. Con RL totalmente fuera de política, uno puede entrenar varios modelos en el mismo conjunto de datos fijo recolectado por los agentes anteriores, y luego seleccionar el mejor ".

En el blog, escribe Google, OPC depende de dos.
suposiciones La primera es que la tarea final tiene dinámicas deterministas, lo que hace
no implica aleatoriedad en cómo cambian los estados, y el segundo es que el agente
o tiene éxito o falla al final de cada prueba. El papel demuestra que el rendimiento
de un agente se mide por la frecuencia con la que su acción elegida es efectiva
acción, dependiendo de qué tan bien la función Q clasifique correctamente las acciones como
Efectivo versus catastrófico.

En su Keynote de E / S de 2019 el mes pasado, Google anunció que ha logrado condensar 100 GB de AI a solo 0,5 GB para un Asistente drásticamente acelerado. Según Scott Huffman, vicepresidente de ingeniería de Google, el llamado Asistente de "próxima generación" es tan rápido que opera en tiempo real.

¿Interesado en escuchar a los líderes de la industria discutir temas como este y sus casos de uso? Asista a los eventos coubicados de AI y Big Data Expo con los próximos espectáculos en Silicon Valley, Londres y Amsterdam para obtener más información. Co-localizado con la IoT Tech Expo, Blockchain Expo, y Cyber Security & Cloud Expo.

TecNoticias, tu portal de información

Google analiza el nuevo modelo de aprendizaje por refuerzo en un nuevo documento de "clasificación fuera de política"

ByErica Flores

By Erica Flores

Related Post

Uber utilizará la eSIM de Valid para casos de uso de IoT

Matter Motor Works se asocia con Airtel para habilitar sus bicicletas AERA con soluciones IoT

Serie Samsung Galaxy S24: fecha de lanzamiento, especificaciones, precio y todos los rumores hasta ahora

You missed

Uber utilizará la eSIM de Valid para casos de uso de IoT

Matter Motor Works se asocia con Airtel para habilitar sus bicicletas AERA con soluciones IoT

Escultura de Zelda Guardian rastrea a humanos y mascotas a través de una cámara

Nos encanta este diminuto Wall-E controlado por radio

TecNoticias, tu portal de información