Modelo de lenguaje Gemini de Google - GOOGLE
MADRID, 6 May. (Portaltic/EP) -
La versión más avanzada del modelo de Inteligencia Artificial (IA) que desarrolla Google, Gemini 1.5 Pro, es capaz de analizar y detectar código malicioso en unos 30 segundos, según ha podido comprobar recientemente el equipo de VirusTotal.
La compañía presentó esta última generación de su modelo el pasado mes de febrero, cuando adelantó que introducía una nueva arquitectura con la que era capaz de realizar tareas complejas de forma más ágil y con un rendimineto y un razonamiento mejorados.
Esta versión de su IA funciona con la arquitectura Mixture-of-Experts (MoE), que divide el modelo en pequeñas redes neuronales, que se activan de forma selectiva dependiendo del tipo de información introducida.
Este modelo también puede analizar, clasificar y comprender contextos largos, ya que tiene la capacidad de procesar hasta un millón de tokens. Por ejemplo, una hora de vídeo, once horas de audio, bases de código con más de 30.000 líneas de código o más de 700.000 palabras.
El equipo de VirusTotal, que pertenece a Google, ha comprobado recientemente la capacidad que tiene este modelo de IA para identificar código malicioso, así como para reconocer amenazas de día cero ('zero day').
En primer lugar, ha subrayado en un comunicado que el crecimiento "explosivo" de este tipo de ataques "continúa desafiando los métodos de análisis manuales tradicionales, lo que subraya la necesidad urgente de una mejor automatización y enfoques innovadores".
En este contexto, Gemini 1.5 Pro se ha diseñado para ayudar a los analistas "a gestionar el volumen asimétrico de amenazas de forma más efectiva y eficiente", motivo por el que puede funcionar como "un poderoso asistente" y se puede emplear para detectar código malicioso.
Hasta ahora las técnicas tradicionales para el análisis automatizado de 'malware' se dividen en dos: estático, que implica examinarlo sin ejecutarlo; y dinámico, que indica lo contrario, llevando a cabo esta tarea en un entorno controlado para monitorizar su comportamiento.
En este sentido, Google ha señalado que, paralelamente a estos métodos, la IA y el aprendizaje automático ('machine learning') se han empleado "cada vez más" para clasificar y agrupar el 'malware' en función de patrones de comportamiento y anomalías.
Así lo ha querido demostrar con Code Insight, presentado en la feria de ciberseguridad RSA Conference 2023, una plataforma especializada en analizar fragmentos de código y generar informes en lenguaje natural, emulando el enfoque de un analista de 'malware'.
Para complementar el trabajo de Code Insight, que tiene una capacidad limitada de entrada de tokens, el equipo de VirusTotal ha trabajado con Gemini 1.5 Pro, que admite hasta un millón de tokens y puede analizar algunos ejecutables descompilados "en una sola pasada", gracias a lo cual se elimina la necesidad de dividir el código en fragmentos más pequeños.
Este modelo también puede interpretar la intención y el propósito del código y no únicamente identificar patrones. Esto es posible gracias a su entrenamiento con un conjunto de datos de código, que abarca el lenguaje de diferentes arquitecturas.
De esta manera, Gemini puede emular el razonamiento y el juicio de un analista de 'malware', predecir sus acciones y proporcionar información sobre las amenazas, incluidas aquellas que no se hayan visto anteriormente ('zero-day').
Por último, Google ha dicho que la última iteración de su modelo de IA puede generar informes resumidos en un lenguaje legible para humanos, lo que hace que el proceso de análisis "sea más accesible y eficiente".
Para probar la eficacia de Gemini 1.5 Pro en al detección de código malicioso, VirusTotal lo utilizó para analizar código descompilado con una muestra de 'malware' representativa. Así, procesó dos archivos binarios del 'ransomware' WannaCry -uno de 268 KB y 231 KB- contenedores de más de 280.000 tokens.
Si bien en sus pruebas con otras herramientas de IA generativas similares tuvo que dividir el código en fragmentos para su estudio, lo que generó "resultados vagos y no específicos", con Gemini 1.5 Pro, en cambio, no se vio en esa necesidad, ya que fue capaz de procesar todo el código desensamblado o descompilado en una sola pasada y entregar un informe con los resultados en tan solo 34 segundos.
La descompilación del código consiste en construir el código fuente original a partir del binario, lo que puede mejorar su legibilidad y la concisión en comparación del código ensamblado, que pasa por un proceso en el que el código binario se convierte en una representación de nivel bajo de la arquitectura del procesador.
Según Google, este análisis inicial fue "notablemente preciso" y mostró su capacidad para manejar conjuntos de datos grandes y complejos de manera transparente y efectiva". Asimismo, en este comunicado ha aclarado que no se basa en conocimientos previamente entrenados sobre WannaCry. Esto significa que el análisis surge de la capacidad de Gemini de interpretare código desconocido y malicioso de forma independiente.
Los investigadores también han señalado que Gemini 1.5 Pro demuestra la misma capacidad tanto en el procesamiento de lenguajes de alto nivel como en el ensamblaje de diversas arquitecturas, lo que significa que se puede adaptar el análisis de archivos posiblemente maliciosos según las circunstancias específicas de cada caso.
PRUEBAS CON AMENAZAS DE DÍA CERO
El equipo de investigadores también ha probado la capacidad de Gemini 1.5 Pro para identificar amenazas de día cero que no son detectadas por los métodos tradicionales, como pueden ser el antivirus o el 'sandbox' de VirusTotal.
Según sus hallazgos, el modelo de Google pudo procesar un archivo de 833 KB descompilado en 189.080 tokens en tan solo 27 segundos, momento en que produjo un informe completo del análisis del 'malware' en una sola pasada.
Además de identificar patrones maliciosos, Gemini 1.5 Pro descifró cuál era el objetivo principal de este 'malware', que tenía la intención de robar criptomonedas secuestrando transacciones de Bitcoin y evadiendo su detección al desactivar el 'software' de seguridad.
Finalmente, Google ha reconocido que si bien el modelo "desbloquea capacidades impresionantes" al poder analizar grandes volúmenes de código descompilado y desensablado, aún quedan desafíos por abordar "para lograr un análisis de 'malware' automatizado verdaderamente sólido y de confianza". Entre ellos, técnicas de ataque en constante evolución, por lo que los desarrolladores deben "aprender y reconocer nuevas amenazas".