VALÈNCIA, 25 Sep. (EUROPA PRESS) -
Un estudio de la Universitat Politècnica de València (UPV) y la Universidad de Cambridge ha revelado que los modelos más recientes de Inteligencia Artificial (IA) "no son tan fiables como los usuarios esperan", además de "haber empeorado" en comparación con los primeros modelos.
La investigación, liderada por un equipo del Instituto VRAIN de la UPV y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge, se ha publicado este jueves en la revista Natura, según ha informado la institución académica en un comunicado.
El investigador del VRAIN José Hernández Orallo ha indicado que "una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea".
"Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma", ha apuntado Orallo.
En 2022, Ilya Sutskever, el científico que está detrás de algunos de los mayores avances en inteligencia artificial de los últimos años --desde la solución de Imagenet hasta AlphaGo o OpenAI-- predijo que "quizá con el tiempo esa discrepancia disminuiría". Sin embargo, el estudio ha demostrado que "no ha sido así". Para ello, las entidades investigaron tres aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana.
DISCORDANCIA CON LA PERCEPCIÓN DE DIFICULTAD
La investigación constata una discordancia respecto a la percepción de dificultad. La investigadora del Instituto VRAIN de la UPV Yael Moros Daval ha sostenido que "los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100% ni siquiera en tareas sencillas".
"Esto significa que no existe una zona segura en la que se pueda confiar en que los modelos funcionen a la perfección", ha resaltado. De hecho, el equipo de investigación ha asegurado que los modelos más recientes mejoran su rendimiento en tareas de alta dificultad, pero no en tareas de baja dificultad, lo que agrava la discordancia entre el rendimiento de los modelos y las expectativas humanas.
El estudio ha descubierto también que los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas. El miembro del equipo de VRAIN Lexin Zhou ha detallado que "esto puede llevar a que los usuarios que inicialmente confían demasiado en los modelos, luego se decepcionen".
"Por otra parte, a diferencia de las personas, la tendencia a evitar proporcionar respuestas no aumenta con la dificultad. Por ejemplo, los humanos suelen evitar dar su opinión en problemas que superan su capacidad. Esto relega a los usuarios la responsabilidad de detectar fallos durante todas sus interacciones con los modelos", ha explicado Zhou.
"INCAPAZ DE COMPENSAR LOS PROBLEMAS"
Asimismo, la investigación ha apuntado que "es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes, no libere a los usuarios de preocuparse en hacer enunciados eficaces".
El investigador de VRAI UPV Cèsar Ferri ha añadido que "han comprobado que los usuarios pueden dejarse influir por 'prompts' que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas".
Además de estos hallazgos sobre aspectos de la falta de fiabilidad de los modelos de lenguaje, los investigadores han descubierto que la "supervisión humana es incapaz de compensar estos problemas". "Las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos, incluso cuando se les permite decir 'no estoy seguro'", ha resaltado Ferri.
DESDE CHATGPT A LLAMA Y BLOOM
Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la familia GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica.
Los investigadores han constatado además que los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al 'prompt' siguen siendo un problema para las nuevas versiones como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.
El investigador del Instituto VRAIN UPV Wout Schellaert ha incidido en que "los grandes modelos de lenguaje son cada vez menos fiables desde el punto de vista humano" y la supervisión del usuario o usuaria para corregir errores "no es la solución", ya que ha precisado que la sociedad tiende "a confiar demasiado" en los modelos y es "incapaz de reconocer resultados incorrectos a diferentes niveles de dificultad".
"Es necesario un cambio fundamental en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales", ha concluido Schellaert.