El algoritmo que ‘adivina’ los delitos futuros falla tanto como un humano

El sofisticado programa COMPAS analiza la posibilidad de reincidir de un millón de convictos reales

19 ene 2018 - 09:45CET

Una vista en un juzgado en EE UU.Paul de las Heras

¿Podrán las máquinas predecir un delito antes de que se produzca? Esa premisa futurista, de película de ciencia-ficción, está presente en los juzgados de EE UU desde 1998, cuando se empezó a usar un programa llamado COMPAS. Su algoritmo revisa 137 parámetros distintos del sujeto para determinar sus posibilidades de reincidir en el futuro. Este sistema de apoyo, comercializado por la compañía Northpointe, ha revisado hasta hoy el historial de un millón de convictos. Y falla como una escopeta de feria. O, al menos, tanto como fallaría una persona cualquiera escogida aleatoriamente y sin especiales conocimientos judiciales o de criminalística.

COMPAS ya estuvo en entredicho cuando se descubrió que su algoritmo tenía un sesgo racista que le hacía equivocarse especialmente en contra de ciudadanos negros. Se equivocaban más que con los blancos en casos de falsos positivos, asegurando que muchos negros reincidirían más de lo que realmente lo hacían. Y también les perjudicaban con falsos negativos, augurando a los blancos menos reincidencias de las reales, como demostró ProPublica. COMPAS, que no tiene acceso a información racial, la deduce por otros parámetros y termina mostrando un sesgo racista, como otros muchos programas.

La máquina y los humanos acertaron en un porcentaje similar, en torno al 65%, a la pregunta de si un convicto reincidiría en los dos próximos años

Visto este resultado, un equipo de investigadores de la Universidad de Darmouth decidió analizar su acierto: no tanto si se desvía contra determinados colectivos, sino su eficacia real en general. Se trata de una herramienta extendida en numerosos juzgados de EE UU, pero los investigadores querían comprobar su eficacia. Para ello, establecieron una base de datos de un millar de convictos para comparar la capacidad predictiva de la máquina frente a la de los humanos. Algo así como Gari Kaspárov contra Deep Blue, pero con el futuro judicial de la gente en juego. Afortunadamente solo era un experimento, vistos los resultados.

La máquina y los humanos acertaron en un porcentaje similar, en torno al 65%, a la pregunta de si un convicto reincidiría en los dos próximos años. Es decir, la inteligencia de silicio no mejora a la intuición humana convencional. Y lo peor es eso: los humanos contra los que se batió el programa especializado eran casi quinientas personas reclutadas para una encuesta online, sin preparación específica para la tarea, ni conocimientos de derecho o criminología. Además, aunque COMPAS dice analizar 137 aspectos del sujeto, los participantes en el experimento solo vieron siete características: edad, sexo, número de delitos siendo menor, número de faltas siendo menor, número de delitos siendo adulto, cargo y grado del delito. Aun así, acertaron tanto como la máquina. Y se mostraron igual de racistas que la máquina: tanto si se les mostraba la raza del acusado como si no.

Sus predicciones con 137 parámetros son las mismas que si solo tiene en cuenta dos de ellos, la edad y el número de delitos previos

"Los reclamos que afirman que herramientas de datos secretas y aparentemente sofisticadas son más precisas y justas que los humanos simplemente no son compatibles con los hallazgos de nuestra investigación", asegura la investigadora Julia Dressel, que realizó la investigación como parte de su tesis.

Las flaquezas del algoritmo no acaban ahí. También se propusieron desentrañar el funcionamiento de la máquina para tratar de entender qué tiene en cuenta en sus valoraciones y cuánto peso tienen ese centenar largo de catacterísticas que analiza. Tras revisar los datos que estudiaba y los resultados que ofrecía, llegaron a una espeluznante conclusión: sus predicciones con 137 parámetros son las mismas que si solo tiene en cuenta dos de ellos, la edad y el número de delitos previos. "Northpointe no revela los detalles del funcionamiento interno de COMPAS, comprensiblemente, por sus intereses comerciales", asegura el estudio, y sin embargo, "podemos concluir razonablemente que COMPAS no usa nada más sofisticado que un predictor lineal o su equivalente".

Probablemente nunca tengamos una definición simple y universalmente aceptada de lo que hace que un algoritmo sea justo. Esta pregunta no es estrictamente técnica, es ética", asegura O'Neil

"Al considerar el uso de un software como COMPAS para tomar decisiones que afectarán significativamente las vidas y el bienestar de los acusados", concluyen, "es importante preguntar si pondríamos estas decisiones en manos de personas al azar que responden a una encuesta en línea porque, al final, los resultados de estos dos enfoques parecen ser indistinguibles". Los resultados del estudio se publican en la revista Science Advances.

La matemática Cathy O'Neil ha analizado los problemas de un algoritmo como COMPAS en su libro Armas de destrucción matemática (Capitán Swing). "Probablemente nunca tengamos una definición simple y universalmente aceptada de lo que hace que un algoritmo sea justo. Pero gracias a Dios finalmente estamos teniendo esta conversación", asegura. "Esta pregunta no es estrictamente técnica, es ética. Y exige la participación de una amplia gama de individuos, incluidos los que se verían afectados por el algoritmo en cuestión", expone. "En el caso del algoritmo de riesgo de reincidencia, tendríamos que comparar el daño de un falso positivo —alguien a quien se le da falsamente una calificación de alto riesgo y se lo encierra injustamente— contra el daño de un falso negativo —alguien a quien equivocadamente se suelta con la posibilidad de cometer un crimen—", escribe O'Neil, que publicó estas reflexiones sin conocer este estudio.

El trabajo de los investigadores de Darmouth, por tanto, echa más leña al fuego de la necesaria rendición de cuentas de estos algoritmos que ya están afectando a la vida de las personas, desde los seguros hasta las finanzas, pasando por la espera que sufriremos al teléfono al llamar a un call center. Activistas, especialistas en inteligencia artificial y autoridades reclaman fiscalizar el contenido de estas cajas negras, programas informáticos de los que desconocemos su funcionamiento y cuyas decisiones pueden tener consecuencias irreversibles. Esencialmente por saber cómo funcionan y si realmente son tan sofisticados como aseguran, pero también por conocer qué tipo de fallos podrían cometer (o estar cometiendo).

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte

INICIA SESIÓN REGÍSTRATE

O suscríbete para leer sin límites

Sobre la firma

Javier Salas

Jefe de sección de Ciencia, Tecnología y Salud y Bienestar. Cofundador de MATERIA, sección de ciencia de EL PAÍS, ejerce como periodista desde 2006. Antes, trabajó en Informativos Telecinco y el diario Público. En 2021 recibió el Premio Ortega y Gasset.