MADRID, 13 May. (Portaltic/EP) -
Gato es el nombre con el que se conoce al nuevo sistema de inteligencia artificial (IA) de DeepMind, que tiene la capacidad de completar más de 600 tareas diferentes, desde redactar las descripciones de imágenes hasta controlar un brazo robótico.
El sistema es un agente generalista único diseñado a partir del enfoque seguido en el modelado de lenguaje a gran escala. Ha sido entrenado con 604 tareas diferentes y con distintas modalidades, una información que se ha serializado en una serie plana de tokens y procesado con una red neuronal con el mismo peso para todas las tareas.
"Gato muestrea el vector de acción autorregresivamente un token a la vez. Una vez que se han muestreado todos los tokens que componen el vector de acción (determinados por la especificación de acción del entorno), la acción se decodifica invirtiendo el procedimiento de tokenización. Esta acción se envía al entorno que da paso y produce una nueva observación. El procedimiento se repite", explican en el texto del estudio de DeepMind.
Como agente generalista único que puede actuar como modelo de visión y de lenguaje y realizar acciones en el mundo real. Entiende el contexto y en base a él Gato decide si genera texto, pulsa un botón o rota una articulación.
Con ello se ha conseguido un sistema de IA capaz de realizar con éxito tareas tan variadas como mantener una conversación por chat, controlar un brazo robótico para apilar bloques, escribir las descripciones de imágenes y jugador a videojuegos de Atari.
Los investigadores de DeepMind han planteado con Gato la posibilidad de entrenar a un agente en una gran cantidad de tareas, y que este agente general "se puede adaptar con pocos datos adicionales para que tenga éxito en un número aún mayor de tareas".