¿Es el big data machista? Los datos sufren de sesgo de género y eso lastra a las empresas

Nada podría parecer a primera vista más neutral que un algoritmo. Es una pieza matemática y, por tanto, algo que no está (o eso pensamos) influenciado por nada. Sin embargo, eso es un error. Aunque se puede pensar que todo es ecuánime, nada es realmente inocente.

Para alcanzar conclusiones y parámetros, se parte de los datos que se tienen. La información, sin embargo, no es neutral y arrastra siglos de sesgo de género. Por ejemplo, una de las vías recurrentes que se usan para alimentar a inteligencias artificiales es dejar que aprenda de fondos de libros. Los libros no son exactamente una fuente de información equilibrada, como acaba de demostrar un estudio.

El estudio fue realizado por investigadoras de la universidad de Copenhage, la de Maryland, la de Massachusetts Amherst, Microsoft Research y Google Research Johns Hopkins University, que usaron machine learning para analizar 3,5 millones de libros publicados en inglés entre 1900 y 2008. El resultado es un desequilibrio entre lo que se usa para definir a las mujeres y lo que se emplea cuando se habla de hombres. Los adjetivos no son iguales. Los hombres son valientes, racionales y justos. Las mujeres son guapas, encantadoras y sexis.

"Hemos sido capaces de ver que las palabras que se usan para referirse a las mujeres se centran mucho más en sus apariencias que las que se usan para describir a los hombres", explica la computer scientist y profesora responsable del estudio, Isabelle Augenstein. Además, los adjetivos negativos aparecen cinco veces más cuando se refieren al cuerpo de las mujeres que al cuerpo de los hombres.

Por supuesto, estas conclusiones se pueden emplear para hablar mucho de qué leemos y cómo como lectores define nuestra percepción del mundo. Pero también - y es lo que importa teniendo en cuenta que estamos hablando de big data - es muy relevante para analizar cómo se forman los algoritmos, cómo se alimentan inteligencias artificiales y cómo se extraen conclusiones del big data.

Por qué esto no es una simple curiosidad

Como explica la profesora responsable del estudio, los algoritmos que se emplean para crear herramientas que entienden el lenguaje humano se alimentan de todas estas fuentes de información. Así, por ejemplo, la tecnología que reconoce nuestra voz o la que soporta el texto predictivo en Google han sacado conclusiones de todos estos textos. También han leído que las mujeres son guapas y los hombres justos y valientes.

Y eso es un problema: cuando los algoritmos identifican patrones, los dan como una verdad. Esas verdades están haciendo que la tecnología opere con un sesgo de género preestablecido. "Los sistemas adoptan el lenguaje con el hablamos y, por ello, nuestros estereotipos y prejuicios de género", apunta Augenstein. Sus efectos no solo van al texto predictivo de tu móvil, sino también, por ejemplo, a cómo un sistema automático separa las candidaturas en una oferta de trabajo.

El problema no es nuevo y no está tampoco limitado a los estereotipos de género. La inteligencia artificial ya se ha cruzado, por culpa del sesgo de los datos, con problemas de racismo.

Los ejemplos de sesgos de género se pueden encontrar en diferentes propuestas. Por ejemplo, BERT, la inteligencia artificial de Google y alimentada con muchísima información, solo asociaba las mujeres a los conceptos de la feminidad tradicional victoriana, por así decirlo. Las mujeres eran madres, pero no se conectaban al dinero o a la acción.

Las empresas pierden dinero por su culpa

Además, el problema no está solo en la información, sino también en quién hace el trabajo de diseñar algoritmos y gestionar la información. Son en su mayoría hombres (y hombres blancos), que asumen que su experiencia es el término medio. Sin embargo, y como demuestra en La mujer invisible Caroline Criado-Pérez, un hombre no es el término medio para toda la humanidad.

Este problema del hombre como término medio ha hecho que las empresas pierdan oportunidades y lancen productos fallidos. El diseño de los coches hace que sean inherentemente más peligrosos para las mujeres y los smartphones son demasiado grandes para la mano media de las mujeres.

Apple lanzó con toda fanfarria la solución definitiva en wearables para la salud y solo cuando lo habían presentado a los medios con gran boato alguien de la prensa se dio cuenta de que no se podía monitorizar con esa super solución el ciclo menstrual, a pesar de que la mitad de la población menstrua en algún momento de su vida.

Un estudio de Kantar ya en 2017 alertaba que el sesgo de género estaba haciendo que las empresas perdiesen dinero.