MADRID, 5 Dic. (Portaltic/EP) -
La división de Inteligencia Artificial (IA) de Google DeepMind ha presentado un nuevo modelo base generativo que puede desarrollar diferentes escenarios virtuales en tres dimensiones (3D) a partir de imágenes y puede ser utilizado por un humano o un agente de IA capacitado.
La compañía ha reconocido que los juegos desempeñan "un papel fundamental" en el mundo de la investigación de la Inteligencia Artificial (IA) y que su naturaleza, así como su combinación de desafíos y su progreso los convierten en entornos ideales para probar y mejorar de forma segura las capacidades de esta tecnología.
Para seguir avanzando en este apartado y tras recordar que ha trabajado con firmas como AlphaGo, AlphaStar o Atari, ha presentado Genie 2, un modelo de IA fundacional capaz de generar diferentes entornos en 3D a partir de indicaciones de texto o imágenes, y destinado a la creación de nuevas experiencias interactivas.
Para ponerlo en marcha, Google DeepMind ha utilizado imágenes generada por el modelo generativo Imagen 3, así como descripciones del escenario que desea generar para que pueda controlarlo o bien un humano o bien un agente de IA que pueda evaluar sus capacidades. En este caso la firma ha empleado para sus pruebas SIMA, un agente escalable multimundo diseñado para realizar tareas en una amplia variedad de mundos de videojuegos.
Google ha adelantado que Genie 2 puede generar "mundos consistentes" de hasta un minuto de duración y que responde de forma inteligente a las acciones realizadas, identificando al personaje y moviéndolo correctamente. Esto significa que el modelo tiene que averiguar que las teclas de flecha deben mover al personaje y no a otros elementos del espacio tridimensional, como árboles o nubes.
Este modelo es mundial, de manera que puede simular mundos virtuales incluidas las consecuencias de realizar cualquier acción de los personajes (por ejemplo, saltar, nadar. etc.) y se ha entrenado con un conjunto de datos de vídeo a gran escala.
Asimismo, es capaz de recordar partes del universo del videojuego que dejen de estar a la vista del personaje para después reproducirlas con precisión cuando vuelven a ser observables, además de que va generando nuevo contenido sobre la marcha, con diferentes perspectivas (primera y tercera persona o vista isométrica).
Este modelo, que puede desarrollar movimientos según el personaje escogido en diferentes escenarios (tierra, mar, aire), también define las interacciones de los jugadores con objetos, de manera que puede conseguir que puedan estallar globos, abrir puertas o reventar barriles de explosivos después de un disparo.
También puede generar efectos de humo para simular un incendio o la erupción de un volcán, reflejos, efectos de agua y de iluminación direccional, para que el foco de luz de una linterna o una antorcha acompañe al personaje hacia donde se dirija. Asimismo, puede animar diferentes avatares y modelar el movimiento de los elementos. De esa manera, establecerá una diferencia clara entre el vuelo de un avión de papel y el de un ave.
Google DeepMind ha señalado finalmente que Genie 2 muestra el porencial de los modelos de mundos fundacionales para crear diversos entornos 3D y acelerar la investigación de agentes, algo que actualmente se encuentra en sus primeras etapas.