El sistema de puntuación de inteligencia artificial de Bristol para niños: fracaso de los algoritmos y amenaza de sesgo

La policía de Avon y Somerset, junto con el ayuntamiento de Bristol, dejaron de utilizar dos modelos de inteligencia artificial diseñados para evaluar el riesgo de delitos contra menores. El motivo: una precisión críticamente baja y una total opacidad de los algoritmos. Auditores independientes no pudieron encontrar ni el código fuente ni la lista de variables utilizadas, lo que hace imposible verificar dichos sistemas.
Cómo se recopilaron los datos: un «gran cubo» de información
La base del proyecto era la base de datos Think Family Database, puesta en marcha en 2016. Esta integraba datos policiales y sociales de los residentes: situación de vivienda, salud mental, embarazos adolescentes, absentismo escolar e incluso la recepción de comidas gratuitas. Los datos se recopilaban sin el consentimiento directo de los ciudadanos, basándose en normas legales sobre el intercambio de información entre organismos públicos. Un especialista policial describió abiertamente el enfoque como «mezclar todo en un gran cubo».
Sobre esta base se construyeron modelos de aprendizaje automático que asignaban puntuaciones de riesgo a adultos y niños. Los periodistas tienen constancia de al menos 23 de estos modelos, desde la predicción de robos con allanamiento hasta la probabilidad de ser víctima de violencia doméstica. Paralelamente, funcionaba la aplicación Offender Management App, que un oficial superior denominaba «tabla de clasificación» de los delincuentes más peligrosos.
Por qué fracasaron los algoritmos
El modelo de evaluación del riesgo de delitos contra menores utilizaba datos de la policía, el ayuntamiento y la organización benéfica Barnardo's, incluyendo información anonimizada de 1000 menores que ya habían sido víctimas de dichos delitos. La puntuación se veía influida por el estatus de menor necesitado de ayuda, el absentismo escolar persistente y los problemas de salud mental. Otro modelo consideraba el apoyo a la vivienda, la deuda de alquiler y las comidas escolares gratuitas.
Ya en 2016, el comité de ética policial advirtió sobre el riesgo de sesgo algorítmico. Posteriormente, la consultora Social Finance calificó la puntuación de riesgo como el elemento más débil del proyecto. La baja precisión socavó el valor práctico de los modelos. En el momento de la revisión, ambos sistemas ya no se utilizaban.
La calidad de los modelos se deterioró debido a cambios en el conjunto de datos. La policía intentó escalar el enfoque a toda la región, pero no logró acordar el intercambio de datos con todos los ayuntamientos locales. Como resultado, los modelos se quedaron principalmente con un «núcleo» policial, sin los indicadores sociales. Los empleados de los servicios municipales se quejaron de que los menores vulnerables no aparecían en los resultados, y las víctimas menores de edad de delitos obtenían una puntuación más baja que los implicados en casos de robos.
Auditoría: baja precisión y documentos perdidos
La empresa auditora Eticas, tras analizar más de 36 000 evaluaciones de rendimiento, concluyó que la mayoría de los modelos tenían una baja precisión en los aciertos positivos. El sistema marcaba erróneamente a una proporción significativa de personas como de riesgo. Por ejemplo, el modelo para identificar posibles ladrones mostró durante más de tres años una precisión inferior al 10%: menos de uno de cada diez señalados por el sistema cometía realmente ese delito.
Ni la policía ni el ayuntamiento de Bristol habían conservado, para junio de 2023, los documentos sobre la decisión de descartar dos modelos de evaluación de riesgos de delitos contra menores. No se pudo encontrar el código fuente ni la lista de variables. Actualmente, las autoridades solo utilizan el modelo de riesgo NEET, una evaluación de la probabilidad de que un menor, tras la escuela, no estudie, trabaje ni reciba formación.
Contexto: PoliceAI y riesgos sistémicos
Esta historia se desarrolla en el contexto del lanzamiento de PoliceAI, un centro nacional de pruebas de herramientas de IA para 43 jefaturas de policía de Inglaterra y Gales, con un presupuesto de 75 millones de libras esterlinas. El incidente en Bristol demuestra claramente que los riesgos de estos modelos no solo están relacionados con la precisión de los algoritmos, sino también con la calidad de los datos, la conservación de la documentación y la posibilidad de una verificación independiente.
Opinión de experto. El caso de Bristol es un ejemplo clásico de cómo la prisa por implementar la IA en el ámbito policial, sin la debida auditoría y transparencia, puede desacreditar la propia idea. Cuando un sistema es incapaz de distinguir a una víctima de un delito de un posible delincuente, no se trata solo de un error técnico, sino de una amenaza directa a la justicia. Mientras los reguladores no introduzcan estándares obligatorios de verificación para estos algoritmos, fracasos como este se repetirán.