Los modelos de IA generativa no son plenamente confiables, arroja un estudio realizado por investigadores de Universidades de EU publicado en un artículo de TechCrunch.

Los resultados arrojan que en la actualidad, incluso los mejores modelos pueden generar texto sin alucinaciones solo alrededor del 35% del tiempo.

El estudio de los investigadores de Cornell, las universidades de Washington y Waterloo y el instituto de investigación sin fines de lucro AI2, indica que ningún modelo tuvo un desempeño ‘excepcionalmente bueno en todos los temas’, y los modelos que alucinaban menos lo hacían en parte porque no respondían.

El estudio buscó comparar las alucinaciones mediante la verificación de datos en modelos como GPT-4 contra fuentes autorizadas sobre temas como derecho, salud, historia y geografía, entre otros. 

“La conclusión más importante de nuestro trabajo es que todavía no podemos confiar plenamente en los resultados de las generaciones de modelos”, dijo a TechCrunch, Wenting Zhao, estudiante de doctorado en Cornell y coautor de la investigación. 

Lea el estudio completo en el enlace.

¿Cómo detectaron las alucinaciones?

El estudio indica que todos los modelos de IA generativa alucinan, aunque el tipo de falsedades depende de las fuentes de información a las que han estado expuestos.

Para lograr que la prueba reflejara con mayor precisión los tipos de preguntas que la gente hace a los modelos, los investigadores identificaron temas en Internet que no tienen referencia en Wikipedia, dado que la mayoría de los modelos se entrenan con datos de esta fuente.

Para el estudio, los investigadores evaluaron más de una docena de modelos populares diferentes, muchos de los cuales se lanzaron el año pasado.

Para el estudio se probaron modelos como:

  • GPT-4 de OpenAI
  • Llama 3 70B de Meta
  • Mixtral 8x22B de Mistral
  • Command R+ de Cohere 
  • Sonar Large de Perplexity
  • Gemini 1.5 Pro de Google
  • Claude 3 Opus de Anthropic