'Alucinaciones interseccionales': por qué a la IA le cuesta entender que un niño de seis años no puede ser médico ni reclamar una pensión

2024-07-31 19:37:54

Cuando vas al hospital y te hacen un análisis de sangre, los resultados se colocan en un conjunto de datos y se comparan con los resultados de otros pacientes y con datos de la población.Esto permite a los médicos compararlo (su sangre, edad, sexo, historial médico, exploraciones, etc.) con los resultados e historiales de otros pacientes, lo que les permite predecir, gestionar y desarrollar nuevos tratamientos.

playing doctor — Crédito: Pixabay/CC0 Dominio público

Durante siglos, esta ha sido la base de la investigación científica: identificar un problema, recopilar datos, buscar patrones y construir un modelo para resolverlo.La esperanza es que la Inteligencia Artificial (IA), del tipo llamadoAprendizaje automáticoque crea modelos a partir de datos, podrá hacerlo de manera mucho más rápida, efectiva y precisa que los humanos.

Sin embargo, entrenar estos modelos de IA necesita MUCHOS datos, tantos que algunos de ellos tienen que ser sintéticos: no datos reales de personas reales, sino datos que reproduzcan patrones existentes.La mayoría de los conjuntos de datos sintéticos son generados por IA de aprendizaje automático.

Las grandes imprecisiones de los generadores de imágenes y los chatbots son fáciles de detectar, pero los datos sintéticos también producenalucinacionesâresultados improbables, sesgados o simplemente imposibles.Al igual que las imágenes y el texto, pueden resultar divertidos, pero el uso generalizado de estos sistemas en todos los ámbitos de la vida pública significa que el potencial de daño es enorme.

¿Qué son los datos sintéticos?

Los modelos de IA necesitan muchos más datos de los que el mundo real puede ofrecer.Los datos sintéticos proporcionan una solución: IA generativa que examina las distribuciones estadísticas en un conjunto de datos real y crea una nueva,uno sintéticopara entrenar otros modelos de IA.

Estos "pseudo" datos sintéticos son similares pero no idénticos al original, lo que significa que también pueden garantizar la privacidad, eludir las regulaciones de datos y compartirse o distribuirse libremente.

Los datos sintéticos también pueden complementar conjuntos de datos reales, haciéndolos lo suficientemente grandes como para entrenar un sistema de inteligencia artificial.O, si un conjunto de datos real está sesgado (tiene muy pocas mujeres, por ejemplo, o sobrerrepresenta cardigans en lugar de pullovers), los datos sintéticos pueden equilibrarlo.Existe un debate en curso sobre hasta qué punto los datos sintéticos pueden desviarse del original.

Omisiones flagrantes

Sin una curación adecuada, las herramientas que crean datos sintéticos siempre sobrerrepresentarán cosas que ya son dominantes en un conjunto de datos ysub-representar (o incluso omitir) "casos extremos" menos comunes.

Esto fue lo que inicialmente despertó mi interés por los datos sintéticos.La investigación médica ya no representa suficientemente a las mujeres y otras minorías, y me preocupaba que los datos sintéticos exacerbaran este problema.Entonces, me asocié con un científico de aprendizaje automático,Dr. Saghi Hajisharif, para explorar el fenómeno de la desaparición de los casos extremos.

Ennuestra investigación, utilizamos un tipo de IA llamado GAN para crear versiones sintéticas de los datos del censo de adultos de EE. UU. de 1990.Como era de esperar, faltaban casos extremos en los conjuntos de datos sintéticos.En los datos originales teníamos 40 países de origen, pero en una versión sintética, solo había 31; los datos sintéticos dejaron fuera a inmigrantes de 9 países.

Una vez que nos enteramos de este error, pudimos modificar nuestros métodos e incluirlos en un nuevo conjunto de datos sintéticos.Era posible, pero sólo con una cuidadosa curación.

'Alucinaciones interseccionales': la IA crea datos imposibles

Luego empezamos a notar algo más en los datos...alucinaciones interseccionales.

Interseccionalidades un concepto enestudios de género.DescribeDinámicas de poder que producen discriminación y privilegios para diferentes personas de diferentes maneras..No sólo analiza el género, sino también la edad, la raza, la clase social, la discapacidad, etc., y cómo estos elementos se "cruzan" en cualquier situación.

Esto puede informar cómo analizamos los datos sintéticos: todos los datos, no solodatos de poblaciónâcomo los aspectos que se cruzan en un conjunto de datos producen combinaciones complejas delo queesos datos están describiendo.

En nuestro conjunto de datos sintéticos, la representación estadística de categorías separadas fue bastante buena.La distribución por edades, por ejemplo, fue similar en los datos sintéticos a la original.No idénticos, pero sí parecidos.Esto es bueno porque los datos sintéticos deben ser similares al original, no reproducirlo exactamente.

Luego analizamos nuestros datos sintéticos para las intersecciones.También se estaban reproduciendo algunas de las intersecciones más complejas.Por ejemplo, en nuestro conjunto de datos sintéticos, la intersección deedad-ingresos-sexofue reproducido con bastante precisión.A esta precisión la llamamos "fidelidad interseccional".

Pero también notamos que los datos sintéticos tenían 333 puntos de datos etiquetados como "marido/esposa y soltero", una alucinación interseccional.La IA no había aprendido (ni le habían dicho) que esto es imposible.De estos, más de 100 puntos de datos eran "maridos nunca casados que ganaban menos de 50.000 dólares al año", una alucinación interseccional que no existía en los datos originales.

Por otro lado, los datos originales incluían múltiples "mujeres viudas que trabajaban en soporte técnico", pero estaban completamente ausentes en la versión sintética.

Esto significa que nuestro conjunto de datos sintéticos podría usarse para investigaciones sobre cuestiones de edad, ingresos y género (donde hubiera fidelidad interseccional), pero no si uno estuviera interesado en "mujeres viudas que trabajan en soporte técnico".Y hay que tener cuidado con los "maridos nunca casados" en los resultados.

La gran pregunta es: ¿dónde termina esto?Estas alucinaciones son intersecciones de 2 y 3 partes, pero ¿qué pasa con las intersecciones de 4 partes?¿O 5 partes?¿En qué momento (y con qué fines) los datos sintéticos se volverían irrelevantes, engañosos, inútiles o peligrosos?

Abrazando alucinaciones interseccionales

Los conjuntos de datos estructurados existen porque las relaciones entre las columnas de una hoja de cálculo nos dicen algo útil.Recuerda elanálisis de sangre.Los médicos quieren saber cómo se compara su sangre con la sangre normal y con otras enfermedades y resultados del tratamiento.Es por eso que organizamos los datos en primer lugar, y lo hemos hecho durante siglos.

Sin embargo, cuando utilizamos datos sintéticos, siempre van a ocurrir alucinaciones interseccionales porque los datos sintéticos deben ser ligeramente diferentes a los originales; de lo contrario, serían simplemente una copia de los datos originales.Por lo tanto, datos sintéticosrequierealucinaciones, pero sólo del tipo correcto: aquellas que amplifican o amplían el conjunto de datos, pero no crean algo imposible, engañoso o sesgado.

La existencia de alucinaciones interseccionales significa que un conjunto de datos sintéticos no puede funcionar para muchos usos diferentes.Cada caso de uso necesitará conjuntos de datos sintéticos personalizados con alucinaciones etiquetadas, y esto necesita un sistema reconocido.

Construyendo sistemas de IA confiables

Para que la IA sea confiable, tenemos que saber qué alucinaciones interseccionales existen en sus datos de entrenamiento, especialmente cuando se usa para predecir cómo actuarán las personas, o para regularnos, gobernarnos, tratarnos o vigilarnos.Necesitamos asegurarnos de que no estén entrenados en alucinaciones interseccionales peligrosas o engañosas, como un médico de seis años que recibe pagos de pensión.

Pero, ¿qué sucede cuando los conjuntos de datos sintéticos se utilizan descuidadamente?En este momento no existe una forma estándar de marcarlos y, a menudo, se mezclan con datos reales.Cuando un conjunto de datos se comparte para que otros lo utilicen, es imposible saber si se puede confiar en él y qué es una alucinación y qué no.Necesitamos formas claras y universalmente reconocibles de identificar datos sintéticos.

Las alucinaciones interseccionales pueden no ser tan divertidas como una mano con 15 dedos o recomendaciones para poner pegamento en una pizza.Son números y estadísticas aburridos y poco atractivos, pero nos afectarán a todos, tarde o temprano.datos sintéticosse extenderá por todas partes y siempre, por su propia naturaleza, contendrá alucinaciones interseccionales.Algunos los queremos, otros no, pero el problema es diferenciarlos.Necesitamos hacer esto posible antes de que sea demasiado tarde.

Este artículo se republica desdeLa conversaciónbajo una licencia Creative Commons.Lea elartículo original.

Citación:'Alucinaciones interseccionales': por qué a la IA le cuesta entender que un niño de seis años no puede ser médico ni reclamar una pensión (31 de julio de 2024)recuperado el 31 de julio de 2024de https://techxplore.com/news/2024-07-intersectional-hallucinations-ai-struggles-year.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español