Google DeepMind planea combinar Gemini y Veo en un futuro

Archivo - 20240828058aa8eb182895d8c43d82ebc9044f55.jpg
Archivo - 20240828058aa8eb182895d8c43d82ebc9044f55.jpg - GOOGLE - Archivo
Publicado: viernes, 11 abril 2025 10:34

   MADRID, 11 Abr. (Portaltic/EP) -

    GoogleDeepMind planea combinar en un futuro dos de sus modelos, Gemini y Veo, con el objetivo de mejorar la comprensión de la física del mundo del primero y avanzar tanto en la creación de un asistente universal como de la robótica.

    Gemini apareció en diciembre de 2023 como un modelo de lenguaje fundacional multimodal de forma nativa, con la capacidad de comprender distintos tipos de información presentada en texto, código, audio, imagen y vídeo.

   Año y medio después, el director ejecutivo de Google DeepMind, Demis Hassabis, ha reiterado esta idea en el pódcast Possible, del cofundador de LinkedIn, Reid Hoffman, donde ha expuesto la intención de combinarlo en un futuro con Veo, su modelo de generación de vídeo, que ofrece resultados de alta calidad y con movimiento realista.

   El motivo se encuentra en que Veo, "al ver muchos vídeos de YouTube, puede comprender la física del mundo", y ello contribuirá a mejorar la comprensión del contexto de Gemini. Ello contribuirá al desarrollo de un asistente universal y la robótica.

    Com ha explicado Hassabis, Google DeepMind tiene la idea de crear un asistente digital universal, "un asistente que te acompaña [...], te ayuda en el mundo real: te recomienda cosas, te ayuda a navegar, te ayuda con cosas físicas en el mundo, como cocinar".

    Pero en lo que respecta a la robótica, "es el comienzo de mostrar lo que podemos hacer con estos modelos multimodales que entienden la física del mundo con un poco de ajuste fino de la robótica además de las acciones, las acciones motoras y la planificación que un robot necesita hacer", ha apostillado el directivo.

Contador