Tres tipos de sesgos en los modelos de IA y cómo podemos abordarlos

Un modelo de IA sesgado debe haber aprendido una relación sesgada entre sus entradas y salidas. 

Las herramientas de toma de decisiones automatizadas son cada vez más omnipresentes en nuestro mundo. Sin embargo, muchos de los modelos de aprendizaje automático (ML) detrás de ellos, desde los sistemas de reconocimiento facial hasta los anuncios en línea , muestran una clara evidencia de prejuicios raciales y de género. A medida que los modelos de ML se adoptan más ampliamente, se necesita especial cuidado y experiencia para garantizar que la inteligencia artificial (IA) mejore los resultados de manera justa.

Los modelos de AA deben apuntar y eliminar los sesgos en lugar de exacerbar la discriminación. Pero para construir modelos de IA justos, primero debemos crear mejores métodos para identificar las causas fundamentales del sesgo en la IA. Debemos entender cómo un modelo de IA sesgado aprende una relación sesgada entre sus entradas y salidas.

Los investigadores han identificado tres categorías de sesgo en la IA : prejuicio algorítmico, legado negativo y subestimación. El prejuicio algorítmico ocurre cuando existe una dependencia estadística entre las características protegidas y otra información utilizada para tomar una decisión. El legado negativo se refiere al sesgo ya presente en los datos utilizados para entrenar el modelo de IA. La subestimación ocurre cuando no hay suficientes datos para que el modelo saque conclusiones confiables para algunos segmentos de la población.

Profundicemos en cada uno de estos. 

Prejuicio algorítmico

El prejuicio algorítmico se deriva de las correlaciones entre las características protegidas y otros factores. Cuando esto sucede, no podemos reducir el sesgo simplemente eliminando las características protegidas de nuestro análisis porque la correlación puede llevar a decisiones sesgadas basadas en factores no protegidos. 

Por ejemplo, los primeros algoritmos de vigilancia policial predictiva no tenían acceso a datos raciales al hacer predicciones, pero los modelos dependían en gran medida de datos geográficos (por ejemplo, código postal), que se correlacionan con la raza. De esta manera, los modelos que son “ciegos” a los datos demográficos como el género y la raza aún pueden codificar esta información a través de otras características que están correlacionadas estadísticamente con atributos protegidos.

La Oficina de Protección Financiera del Consumidor, que trabaja para garantizar que los prestamistas cumplan con las leyes de préstamos justos, ha encontrado métodos estadísticos que combinan información basada en la geografía y el apellido en una probabilidad aproximada altamente confiable para la raza y el origen étnico. Estos hallazgos refutan la idea errónea prevalente de que un algoritmo será automáticamente menos sesgado si no se le da acceso a clases protegidas. Este fenómeno, conocido como discriminación por poder, puede mitigarse una vez que se identifica la causa raíz. Es decir, las infracciones se pueden reparar localizando cálculos intermedios dentro de un modelo que crea la característica de proxy y reemplazándolos con valores que están menos correlacionados con el atributo protegido. 

Contrariamente a la intuición, la solución ingenua de eliminar las características protegidas del entrenamiento del modelo en realidad puede dañar a los grupos que ya están en desventaja en ciertos casos. En el sistema judicial de EE. UU., Por ejemplo, las autoridades penitenciarias y las juntas de libertad condicional utilizan listas de verificación de factores de riesgo para tomar decisiones justas sobre el encarcelamiento y la liberación. Cuando tanto los humanos como los modelos de IA tienen información básica como el género, la edad, el cargo actual y el número de delitos previos de adultos y menores, los humanos y los modelos funcionan de manera comparable. 

Sin embargo, al proporcionar a los humanos y a los modelos 10 factores de riesgo adicionales relacionados con la educación y el uso de sustancias, los investigadores encontraron que los modelos de aprendizaje automático son más precisos y menos propensos a sesgos . Esto subraya la necesidad de comprender la causa raíz del sesgo de un modelo de IA en lugar de emplear ciegamente estrategias de remediación. 

Legado negativo

También es posible que el sesgo de un algoritmo se deba directamente a un sesgo análogo presente en sus datos de entrenamiento. Por ejemplo, los modelos de aprendizaje automático capacitados para realizar tareas de traducción de idiomas tendían a asociar nombres femeninos con atributos como “padres” y “bodas”, mientras que los nombres masculinos tenían una asociación más fuerte con palabras como “profesional” y “salario”. Es poco probable que el modelo esté recogiendo esta asociación por sí solo; más bien, está entrenado en un corpus de texto que refleja estos tropos de género. Este es un ejemplo de legado negativo 

Dentro del procesamiento del lenguaje natural, el sesgo de género es un problema preocupante pero bien estudiado: una comprensión clara de su causa presenta vías para corregirlo. En idiomas como el inglés, donde los sustantivos y adjetivos tienden a no tener un género, los investigadores han encontrado formas de hacer cumplir las incrustaciones de palabras para permanecer neutrales al género . En otros casos en los que el lenguaje tiene un género inherente, los corpus del lenguaje se pueden aumentar para evitar sesgos mediante la introducción de nuevos ejemplos que rompan las asociaciones causales entre las palabras de género y las neutrales al género. 

En otras áreas de aplicación, el legado negativo puede ser uno de los tipos de sesgo más difíciles de mitigar, ya que el sesgo está intrínsecamente integrado en el conjunto de datos del que aprende el modelo de aprendizaje automático. Como tal, el modelo puede codificar años de sesgo sistémico contra una población. Por ejemplo, hacer una línea roja o negar préstamos sistemáticamente a las personas en función del lugar donde viven puede sesgar los conjuntos de datos de aprobación de préstamos hacia los blancos. Este sesgo en los datos conduce a un comportamiento sesgado del modelo de IA. 

Si bien las estrategias de mitigación de sesgos existentes podrían intentar aumentar las tasas de aceptación de crédito para los solicitantes negros, esto podría ocultar la verdadera causa del sesgo del modelo y dificultar la resolución del problema subyacente. Se ha demostrado que los puntajes FICO, comúnmente utilizados como insumos en las decisiones crediticias, exhiben discriminación racial . En este caso, las estrategias de mitigación de sesgos post-hoc serían menos efectivas que buscar fuentes de datos alternativas que también exhiban conexiones causales con la solvencia crediticia. Por lo tanto, el legado negativo podría mitigarse encontrando datos alternativos.

Subestimación

Así como los datos pueden estar sesgados, también pueden ser insuficientes. Sin suficientes datos, los modelos de aprendizaje automático pueden fallar al converger o proporcionar predicciones confiables. 

Este es el problema de la subestimación. Amazon recientemente entrenó un modelo de aprendizaje automático para seleccionar a los solicitantes en su proceso de contratación, pero al igual que muchas otras empresas de tecnología, Amazon tiene una fuerza laboral desproporcionadamente masculina. 

Este desequilibrio de datos hizo que su modelo de inteligencia artificial tuviera más confianza al evaluar a los hombres, lo que llevó a recomendaciones más sólidas para los solicitantes masculinos. Al reconocer el sesgo en las recomendaciones hechas por el modelo, Amazon eliminó este modelo de su canal de reclutamiento. 

Es posible que Amazon haya podido construir una herramienta de reclutamiento imparcial si hubiera buscado más o mejores datos, pero sin una comprensión adecuada de por qué surgió el sesgo, esto hubiera sido imposible. En el caso de la subestimación, la certeza de un modelo de sus predicciones se puede analizar en subgrupos de la población, y el conjunto de datos subyacente se puede diversificar aumentándolo automáticamente con nuevas instancias .

Las medidas de certeza y estabilidad del modelo en una población son fundamentales para comprender si un modelo está preparado para hacer predicciones creíbles para todos los grupos de personas. En el caso de la subestimación, el conjunto de datos proporcionado no es lo suficientemente expresivo para capturar los matices de los datos. Sin embargo, las técnicas de entrenamiento contradictorio para promover la equidad o las estrategias de mitigación de sesgos post-hoc probablemente no serán tan exitosas como aumentar el conjunto de datos para que sea más completo.

No es ningún secreto que los algoritmos pueden codificar y perpetuar el sesgo, y esto puede tener consecuencias devastadoras. Pero si bien esto pinta una imagen sombría, es importante recordar que el sesgo algorítmico (a diferencia del sesgo humano) es, en última instancia, cuantificable y reparable si se trata de manera adecuada. En lugar de adoptar un enfoque ciego para reducir el sesgo de la IA, una comprensión precisa de las verdaderas causas detrás del sesgo es esencial para implementar una IA segura y confiable.

Si bien estas causas son complejas, los investigadores continúan desarrollando mejores formas de medir resultados dispares para grupos específicos , identificar características específicas que causan estas diferencias y elegir estrategias de mitigación razonables para fuentes específicas de sesgo. A medida que se automatizan más decisiones, debemos combatir el sesgo desde sus raíces para crear modelos justos y equitativos.

Anupam Datta es profesor de ingeniería eléctrica e informática en la Universidad Carnegie Mellon y científico jefe de Truera . Divya Gopinath, ingeniero de investigación de Truera, Mesi Kebed, ingeniero de Truera, Shayak Sen, director técnico de Truera, y John C. Mitchell, profesor de informática e ingeniería eléctrica en la Universidad de Stanford, contribuyeron a este artículo.

image_pdfwww.dineroclub.netimage_printwww.dineroclub.net