ReaLM de Apple comprende las referencias ambiguas de los usuarios con un rendimiento comparable al de GPT4

Archivo - Inteligencia Artificial (IA).
Archivo - Inteligencia Artificial (IA). - PIXABAY - Archivo
Actualizado: jueves, 4 abril 2024 11:43

    MADRID, 4 Abr. (Portaltic/EP) -

   Apple ha desarrollado un modelo de lenguaje que pese a tener menos parámetros que GPT4 ofrece un rendimiento similar a este, considerado el más avanzado, en la comprensión de referencias ambiguas cuando interactúa con el usuario.

    Investigadores de Apple han trabajado en uno de los problemas que enfrentan los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), la resolución de referencia, esto eso, las referencias ambiguas del lenguaje humano (por ejemplo, al referirse a algo como "eso" o "este") que se entienden por el contexto, pero que los asistentes conversacionales de IA no pueden comprender.

    El problema resulta evidente en la interacción de las personas con los asistentes virtuales, sobre todo con las mejoras que permiten la comunicación con lenguaje natural, ya que hay una parte de la conversación a la que no pueden dar respuesta por no comprender el contexto. Por ejemplo, ante la petición de búsqueda de una farmacia cercana, y la lista presentada por el asistente, si el humano solicita "llama a este número" porque es el que se muestra en pantalla.

    Este problema de la referencia se agudiza por los LLM que habitualmente se integran en los dispositivos, que funcionan de manera local en equipos con una capacidad de computación reducida.

    Para resolver este problema, los investigadores de Apple han desarrollado ReaLM (Resolución de referencia como modelado de lenguaje) con el que consiguen que el modelo comprenda las referencias ambiguas que se muestran en la pantalla para mejorar la naturalidad de la conversación.

    Si bien no es un enfoque nuevo, pues como explican ya hay investigaciones que han explorado las referencias conversacionales, visuales y deícticas, no es tan común el trabajo centrado en la pantalla, porque se suele "tratar como un problema de texto y no como un componente visual". A esto se añade que las referencias ambiguas sobre elementos de la pantalla suelen estar más enfocadas a la realización de una acción.

    Aunque recientemente han aparecido transformadores visuales y otros modelos preentrenados, no son suficiente para resolver el problema de la referencia, porque han sido entrenados con imágenes el mundo real y no con capturas de pantalla.

    Con su trabajo, han demostrado que "los modelos de lenguaje grande se pueden utilizar para realizar la resolución de referencias" a partir de la codificación de las entidades candidatas como texto natural. Esto es, puede comprender las imágenes integradas en un texto y extraer información de ellas.

"De manera crítica, demostramos cómo se pueden pasar las entidades que están presentes en la pantalla en un LLM utilizando una representación textual novedosa que resume la pantalla del usuario mientras conservar las posiciones espaciales relativas de estas entidades", recogen en el texto de la investigación, publicada en Arxiv.org.

    Con su trabajo aseguran que ReaLM tiene un rendimiento comparable al de GPT4, de OpenAI, pese a contar con "muchos menos parámetros", tanto para referencias en pantalla como para expresiones del usuario.

Leer más acerca de: