por Ernest Davis
NUEVA YORK – En los últimos 15 años hemos presenciado una explosión en la cantidad de datos digitales a nuestra disposición (desde Internet, las redes sociales, equipos científicos, los teléfonos inteligentes, cámaras de vigilancia y muchas otras fuentes) y en las tecnologías informáticas usadas para procesarlos. El “Big Data”, como se los conoce, sin duda aportará importantes avances científicos, tecnológicos y médicos, pero también plantea serios riesgos si se abusa de él o se lo utiliza de manera inadecuada.
Hasta ahora, las innovaciones importantes como los motores de búsqueda en Internet, la traducción automática y el etiquetado de imágenes se han basado en la aplicación de técnicas de aprendizaje automático a vastos conjuntos de datos. Y, en un futuro cercano, el Big Data podría mejorar significativamente la formulación de políticas gubernamentales, los programas de bienestar social y los sistemas de becas.
Pero tener más datos no es un sustituto a tener datos de alta calidad. Por ejemplo, un artículo reciente de Nature informa que a los encuestadores electorales en los Estados Unidos les está costando obtener muestras representativas de la población, porque legalmente solo se les permite llamar a teléfonos fijos, mientras que los estadounidenses usan cada vez más teléfonos móviles. Y aunque uno puede encontrar innumerables opiniones políticas sobre las redes sociales, estas no representan de manera fiable a los votantes. De hecho, una parte sustancial de los tuits y mensajes de Facebook sobre política son generados por ordenador.
En los últimos años, los programas automatizados basados en conjuntos de datos sesgados han causado numerosos escándalos. Por ejemplo, en abril pasado un estudiante universitario buscó imágenes de Google para “peinados de aspecto no profesional para ir a trabajar”, los resultados mostraron en su mayoría imágenes de personas de raza negra. Cuando el estudiante quitó el “no” antes de “profesional”, Google arrojó principalmente imágenes de personas blancas. Sin embargo, esto no fue resultado del sesgo de los programadores de Google, sino que más bien un reflejo del modo en que la gente etiqueta imágenes en Internet.
Un programa de Big Data que usara este resultado de búsqueda para evaluar las decisiones de contratación y ascensos podría penalizar a los candidatos negros parecidos a las imágenes de los resultados de “peinados no profesionales”, perpetuando así los sesgos sociales tradicionales. Y esto no es sólo una posibilidad hipotética. El año pasado, una investigación de ProPublica sobre “modelos de riesgo de reincidencia” demostró que una metodología de amplio uso para determinar las sentencias para los convictos sobrestima sistemáticamente la probabilidad de que los acusados de raza negra cometan delitos en el futuro y subestima la de los blancos.
Otro peligro del Big Data es que se lo puede “engañar”. Cuando la gente sabe qué conjunto de datos se utiliza para tomar decisiones importantes que la afectan, tiene un incentivo para inclinar la balanza a su favor. Por ejemplo, si a los profesores se los juzga según los resultados de sus estudiantes pueden ser más propensos a “enseñar para el examen”, o incluso a hacer trampa.
Del mismo modo, hay administradores de universidades que quieren mover sus instituciones en las clasificaciones US News and World Reports que han tomado decisiones imprudentes, como invertir en gimnasios extravagantes a expensas de la calidad académica. Peor aún, han tomado decisiones grotescamente poco éticas, como la medida de la Universidad Mount Saint Mary para aumentar su “tasa de retención”, identificando y expulsando a los estudiantes más débiles en las primeras semanas de clases.
Ni siquiera el motor de búsqueda de Google es inmune. A pesar de esta alimentado por una inmensa cantidad de datos supervisados por algunos de los principales científicos mundiales de datos, sus resultados son susceptibles a la “optimización del motor de búsqueda” y manipulación, como el “Google bombing”, el “spamdexing” y otros métodos que sirven a intereses mezquinos.
Un tercer peligro es la violación de la privacidad, porque muchos de los datos hoy disponibles contienen información personal. En los últimos años, se han robado grandes conjuntos de datos confidenciales de sitios empresariales y gubernamentales, y los investigadores han demostrado cómo las opiniones políticas o incluso las preferencias sexuales de las personas se pueden recoger con precisión desde publicaciones en línea aparentemente inocuas, como las opiniones sobre películas… incluso si se publican bajo seudónimo.
Por último, el Big Data plantea un reto para la rendición de cuentas. Si alguien siente que ha sido tratado injustamente por la decisión de un algoritmo, a menudo no tiene forma de apelar, ya sea porque los resultados específicos no pueden ser interpretados o porque las personas que lo han escrito se niegan a proporcionar detalles sobre cómo funciona. Y si bien los gobiernos o las corporaciones pueden intimidar a alguien que responda describiendo sus algoritmos como “matemáticos” o “científicos”, a menudo también se sienten impresionados por estas creaciones. Hace poco la Unión Europea adoptó una medida que garantiza a las personas afectadas por los algoritmos el “derecho a una explicación”, pero solo el tiempo dirá cómo funcionará esto en la práctica.
Cuando los perjudicados por el Big Data no tienen vías para recurrir, los resultados pueden ser tóxicos y de gran alcance, como la cientista de datos Cathy O’Neil demuestra en su último libro Weapons of Math Destruction (Armas de Destrucción Matemática).
La buena noticia es que, en gran medida, los peligros del Big Data se pueden evitar. Pero no será así a menos que protejamos celosamente la privacidad de las personas, detectemos y corrijamos las injusticias, utilicemos prudentemente las recomendaciones algorítmicas y mantengamos una comprensión rigurosa del funcionamiento interno de los algoritmos y los datos que alimentan sus decisiones.
Traducido del inglés por David Meléndez Tormen
Ernest Davis es Profesor de Ciencias Informáticas del Instituto Courant de Ciencias Matemáticas de la Universidad de Nueva York.
Copyright: Project Syndicate, 2017.
www.project-syndicate.org