Ni mejores modelos de IA son del todo confiables: Universidades EU

Los modelos de IA generativa no son plenamente confiables, arroja un estudio realizado por investigadores de Universidades de EU publicado en un artículo de TechCrunch.

Los resultados arrojan que en la actualidad, incluso los mejores modelos pueden generar texto sin alucinaciones solo alrededor del 35% del tiempo.

El estudio de los investigadores de Cornell, las universidades de Washington y Waterloo y el instituto de investigación sin fines de lucro AI2, indica que ningún modelo tuvo un desempeño ‘excepcionalmente bueno en todos los temas’, y los modelos que alucinaban menos lo hacían en parte porque no respondían.

El estudio buscó comparar las alucinaciones mediante la verificación de datos en modelos como GPT-4 contra fuentes autorizadas sobre temas como derecho, salud, historia y geografía, entre otros.

“La conclusión más importante de nuestro trabajo es que todavía no podemos confiar plenamente en los resultados de las generaciones de modelos”, dijo a TechCrunch, Wenting Zhao, estudiante de doctorado en Cornell y coautor de la investigación.

Lea el estudio completo en el enlace.

¿Cómo detectaron las alucinaciones?

El estudio indica que todos los modelos de IA generativa alucinan, aunque el tipo de falsedades depende de las fuentes de información a las que han estado expuestos.

Para lograr que la prueba reflejara con mayor precisión los tipos de preguntas que la gente hace a los modelos, los investigadores identificaron temas en Internet que no tienen referencia en Wikipedia, dado que la mayoría de los modelos se entrenan con datos de esta fuente.

Para el estudio, los investigadores evaluaron más de una docena de modelos populares diferentes, muchos de los cuales se lanzaron el año pasado.

Para el estudio se probaron modelos como:

GPT-4 de OpenAI
Llama 3 70B de Meta
Mixtral 8x22B de Mistral
Command R+ de Cohere
Sonar Large de Perplexity
Gemini 1.5 Pro de Google
Claude 3 Opus de Anthropic

Estudio de Universidades en EU indica que ni los mejores modelos de IA son plenamente confiables

¿Cómo detectaron las alucinaciones?

REDACCIÓN

Google enfrenta veredicto por monopolio publicitario; esta semana inicia discusión sobre remedios en negocio de Búsqueda

News/Media Alliance y ProRata.AI acuerdan licencias para atribuir y compensar el uso de contenidos en IA

Rechaza juez desestimar demanda por derechos de autor de The New York Times contra OpenAI

Vicepresidente de EU apoya postura de evitar regulación estricta de la IA

Estudio de Universidades en EU indica que ni los mejores modelos de IA son plenamente confiables

La startup de IA Perplexity anuncia un acuerdo con editores sobre distribución de ingresos

¿Cómo detectaron las alucinaciones?

OpenAI da su respaldo a 3 proyectos de ley del Senado de EU que darían forma a la política de IA

REDACCIÓN

Google enfrenta veredicto por monopolio publicitario; esta semana inicia discusión sobre remedios en negocio de Búsqueda

News/Media Alliance y ProRata.AI acuerdan licencias para atribuir y compensar el uso de contenidos en IA

Rechaza juez desestimar demanda por derechos de autor de The New York Times contra OpenAI

Vicepresidente de EU apoya postura de evitar regulación estricta de la IA