Fallo de los predictores de IA en Bristol: algoritmos de evaluación de riesgo para niños desactivados debido a errores fatales

La policía de Avon y Somerset, en colaboración con el ayuntamiento de Bristol, ha dejado de utilizar al menos dos modelos de inteligencia artificial diseñados para evaluar el riesgo de delitos contra menores. El motivo es la precisión críticamente baja de las predicciones y la total opacidad de los sistemas, que resultaron ser prácticamente imposibles de auditar de forma independiente.
Una investigación periodística, realizada con la participación del grupo de derechos humanos Liberty Investigates, el medio local Bristol Cable y la redacción sin ánimo de lucro Lighthouse Reports, reveló problemas sistémicos en el funcionamiento de estos algoritmos. El análisis de cientos de páginas de documentos internos mostró que los modelos, construidos sobre la base de la base de datos Think Family Database, adolecían de deficiencias fundamentales.
Cómo se recopilaron los datos y se construyeron los modelos
Think Family Database, puesta en marcha en 2016, integraba datos policiales y sociales de los residentes de Bristol. Incluía información sobre el estado de la vivienda, la salud mental, los embarazos adolescentes, la asistencia escolar e incluso la recepción de comidas gratuitas. Cabe destacar que los datos se recopilaron sin el consentimiento directo de los ciudadanos, utilizando fundamentos legales para el intercambio de información entre organismos. Un especialista en datos de la policía describió cínicamente este proceso como «echar todo en un gran cubo».
Sobre esta base inestable se construyeron 23 modelos de aprendizaje automático que asignaban puntuaciones de riesgo a adultos y niños, desde la predicción de robos con allanamiento hasta la probabilidad de ser víctima de violencia doméstica. Paralelamente, funcionaba la aplicación Offender Management App, que, según uno de los altos cargos, servía de base para una «tabla clasificatoria» de los delincuentes más peligrosos.
Por qué fracasaron los modelos
El problema clave residía en la calidad de los datos. Uno de los modelos para evaluar el riesgo de delitos contra menores utilizaba datos anonimizados de la organización benéfica Barnardo's sobre 1000 niños que ya habían sido víctimas de tales delitos. Sin embargo, en 2016, el comité de ética policial ya advirtió sobre un inevitable sesgo algorítmico debido a las variables seleccionadas, como el estatus de niño necesitado de ayuda o problemas de salud mental.
Posteriormente, una auditoría realizada por la organización sin ánimo de lucro Social Finance confirmó los peores temores. La puntuación de riesgo fue calificada como el elemento más débil, y la baja precisión, como un factor que socavaba el valor práctico de los modelos. En el momento de la revisión, dos modelos de evaluación de riesgos de delitos contra menores ya habían sido desactivados.
Social Finance vinculó el deterioro de la calidad de los modelos con un cambio en el conjunto de datos. La policía intentó escalar el enfoque a toda la región de Avon y Somerset, pero no logró acordar el intercambio de datos con todos los ayuntamientos locales. Como resultado, los modelos perdieron los indicadores sociales y se convirtieron en un «núcleo» puramente policial, lo que redujo aún más su precisión.
Especial preocupación genera la total opacidad de los sistemas. Los auditores independientes no pudieron encontrar ni el código fuente ni la lista de variables utilizadas en los modelos. Además, ni la policía ni el ayuntamiento de Bristol habían conservado, a junio de 2023, documentos sobre la decisión de descartar los dos modelos de evaluación de riesgos de delitos contra menores.
Resultados de la auditoría independiente
Los periodistas de WIRED obtuvieron de la policía más de 36 000 evaluaciones de rendimiento de 13 modelos utilizados o probados entre 2017 y 2024. La auditoría, realizada por la empresa Eticas, mostró que la mayoría de los modelos tenían una precisión de aciertos positivos críticamente baja. El sistema marcaba erróneamente a una proporción significativa de personas como de riesgo.
Por ejemplo, un modelo para identificar posibles ladrones con allanamiento mostró durante más de tres años una precisión de aciertos positivos inferior al 10%. Esto significa que menos de uno de cada diez individuos señalados por el sistema había cometido realmente ese delito. Los auditores subrayaron que tales cifras no son características de modelos bien gestionados en uso operativo.
Caso en el contexto de la expansión de PoliceAI
Esta historia se desarrolla en el contexto del lanzamiento de PoliceAI, un centro nacional para probar y escalar herramientas de IA en 43 cuerpos policiales de Inglaterra y Gales, con un presupuesto de 75 millones de libras esterlinas para tres años. Cabe destacar que el centro está dirigido por el exjefe de policía de Avon y Somerset, Andy Marsh, precisamente la región donde se desarrolló la controvertida analítica de IA.
El caso de Bristol no es solo una historia sobre un error técnico. Es un fallo sistémico que demuestra que los riesgos de estos modelos no solo están relacionados con la precisión de los algoritmos, sino también con la calidad de los datos, la conservación de la documentación y la posibilidad de una verificación independiente.
Opinión del experto: Esta situación es un ejemplo clásico de cómo la búsqueda de innovaciones tecnológicas en el ámbito policial puede convertirse en una catástrofe sin un control adecuado de la calidad de los datos y la transparencia de los algoritmos. Los modelos de IA entrenados con datos sesgados o incompletos no solo son inútiles, sino peligrosos, ya que pueden generar acusaciones falsas y socavar la confianza en el sistema de justicia. El fracaso de Bristol debería servir de advertencia para todos aquellos que implementan ciegamente la IA en ámbitos socialmente relevantes.