Archivo - Inteligencia Artificial (IA). - PIXABAY - Archivo
MADRID, 22 Abr. (Portaltic/EP) -
Microsoft ha compartido un nuevo modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés) de la familia BitNet diseñados con una arquitectura nativa de 1 bit, lo que permite que sea pequeño, pero que tengan un rendimiento similar al de modelos de tamaño completo.
BitNet b1.58 2B4T es un modelo abierto diseñado con una arquitectura de un bit nativo, lo que significa que a la hora de almacenar información trabaja con los valores -1, 0, +1, "una forma extrema pero prometedora de cuantificación de modelos", como han apuntado los investigadores de Microsoft Research.
Con esta arquitectura, que se limita a tres valores, ocupa menos espacio de memoria para la información, que procesa rápidamente, necesitando para ello menos energía.
Se trata de "una solución convincente para los desafíos de eficiencia", ya que "al reducir drásticamente la memoria necesaria para almacenar pesos y permitir cálculos bit a bit altamente eficientes, tiene el potencial de reducir significativamente los costes de implementación, reducir el consumo de energía y acelerar las velocidades de inferencia", explican en el texto de la investigación.
Este modelo ha sido entrenado a una escala de 2.000 millones de parámetros, con 4 billones de tokens, y tiene un tamaño de 400MB, lo que hace que sea un modelo pequeño, y aun así muestre "un rendimiento comparable al de los principales modelos de peso abierto y precisión total de tamaño similar en una amplia gama de tareas". Está disponible en Hugging Face.