MADRID, 14 Jul. (Portaltic/EP) -
Meta ha presentado este viernes CM3leon, el primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una "receta adaptada" de lenguaje multimodal que, además, se entrena con "cinco veces menos recursos".
La compañía liderada por Mark Zuckerberg continúa investigando en modelos generativos de IA, introduciendo avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas entiendan y expresen lenguaje, así como sistemas que pueden generar imágenes basadas en entradas de texto.
En este marco, Meta ha presentado su nuevo modelo de IA CM3leon -pronunciado 'camaleón'- capaz de ofrecer "el más alto rendimiento" en la conversión de texto a imagen y viceversa que, además, se entrena con cinco veces menos recursos que los modelos anteriores y genera secuencias de texto e imágenes en base a "secuencias arbitrarias de otro contenido de imagen y texto".
Tal y como ha explicado la compañía en un comunicado en su blog, se trata de una solución innovadora porque es "primer modelo multimodal" que está entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.
Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.
Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento "de última generación" para crear imágenes a partir de texto y viceversa. De hecho, Meta ha subrayado que CM3leon tiene la "versatilidad y efectividad de los modelos autorregresivos". Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.
Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3) ya que puede generar secuencias de texto e imágenes condicionadas a "secuencias arbitrarias de otro contenido de imagen y texto". Tal y como ha sentenciado la compañía, "esto amplía enormemente la funcionalidad de los modelos anteriores que eran solo de texto a imagen o solo de imagen a texto".
Siguiendo esta línea, CM3Leon también muestra una capacidad "impresionante" para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos.
Igualmente, la empresa matriz de Instagram ha destacado que CM3leon se desempeña bien en una "amplia variedad de tareas de visión y lenguaje", incluida la respuesta visual a preguntas y subtítulos de formato largo.
CAPACIDADES DE CM3LEON
Gracias a todas sus características, CM3leon puede proceder a la generación y edición de imágenes guiadas por texto. En concreto, la edición modificada por texto es "un desafío" ya que es necesario que el modelo comprenda tanto las instrucciones de texto como la propia imagen generada para editarla posteriormente.
Al hilo, este nuevo modelo de Meta también puede editar imágenes siguiendo instrucciones de estructura. Esto es una opción que permite crear ediciones "visualmente coherentes y contextualmente apropiadas" para una imagen que se adhieren a las pautas de diseño ya descritas previamente.
Otra de las capacidades que desempeña CM3leon es la de generar una imagen a partir de un texto con descripciones. Pero, en concreto, a partir de un texto que describa una imagen "potencialmente muy compositiva", lo que pone a prueba al modelo para seguir de forma coherente las indicaciones del texto.
CM3leon también es capaz de llevar a cabo tareas de texto. En este sentido, puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, incluso, puede responder preguntas sobre una imagen.
Dentro de sus habilidades para generar imágenes, el usuario puede redactar una descripción que incluya la localización exacta de dónde se han de situar los objetos que se hayan incluido en la descripción, dentro de un espacio delimitado.
Igualmente, CM3leon también es capaz de ofrecer resultados de "súper resolución", esta opción agrega una etapa entrenada por separado para introducir imágenes de mayor resolución a los resultados del modelo original.