Les anciens criminels récidiveront-ils? Les humains sont terribles à deviner, et les ordinateurs ne sont pas beaucoup mieux

Pendant des décennies, de nombreux chercheurs ont pensé que les statistiques étaient meilleures que les humains pour prédire si un criminel libéré finirait en prison. Aujourd’hui, les algorithmes commerciaux d’évaluation des risques aident les tribunaux de tout le pays à effectuer ce type de prévisions. Leurs résultats peuvent éclairer la façon dont les autorités judiciaires décident de la peine, de la libération sous caution et de l’offre de libération conditionnelle. L’adoption généralisée de la justice semi-automatisée se poursuit malgré le fait qu’au cours des dernières années, les experts ont exprimé des inquiétudes quant à l’exactitude et l’équité de ces outils. Plus récemment, un nouveau document de Science Advances, publié vendredi, a révélé que les algorithmes fonctionnaient mieux que les gens pour prédire si un criminel libéré serait à nouveau arrêté dans les deux ans. Les chercheurs qui ont travaillé sur une étude précédente ont cependant contesté ces résultats. La seule chose sur laquelle les analyses actuelles s’accordent est que personne n’est proche de la perfection – les prédictions humaines et algorithmiques peuvent être inexactes et biaisées.

La nouvelle recherche est une réponse directe à un article de Science Advances 2018 qui a trouvé des humains non formés ainsi qu’un logiciel d’évaluation des risques populaire appelé Correctional Offender Management Profiling for Alternative Sanctions (COMPAS) pour prévoir la récidive, ou si un criminel condamné récidiverait. Cette étude a attiré beaucoup d’attention, en partie parce qu’elle contredisait la sagesse perçue. Psychologue clinicien «Paul Meehl a déclaré, dans un livre célèbre en 1954, que la prédiction actuarielle ou statistique était presque toujours meilleure que le jugement humain non guidé», explique John Monahan, psychologue à la faculté de droit de l’Université de Virginie, qui n’était pas impliqué. dans l’étude la plus récente, mais a travaillé avec l’un de ses auteurs. “Et au cours des six dernières décennies, des dizaines d’études lui ont donné raison.” Lorsque le document de 2018 a été publié, le distributeur de COMPAS, la société de logiciels de justice pénale Equivant (anciennement Northpointe), a publié une réponse officielle sur son site Web disant que l’étude avait mal décrit le programme d’évaluation des risques et remis en question la méthode de test utilisée. Lorsqu’il a été contacté plus récemment par Scientific American, un représentant d’Equivant n’avait aucun commentaire supplémentaire à ajouter à cette réponse.

Pour tester les conclusions du document de 2018, des chercheurs de l’Université de Stanford et de l’Université de Californie, Berkeley, ont initialement suivi une méthode similaire. Les deux études ont utilisé un ensemble de données d’évaluations des risques effectuées par COMPAS. L’ensemble de données couvre environ 7 000 accusés dans le comté de Broward en Floride et comprend les «facteurs de risque» de chaque individu – des informations pertinentes telles que le sexe, l’âge, le crime dont cette personne a été inculpée et le nombre de ses infractions précédentes. Il contenait également la prévision de COMPAS quant à savoir si l’accusé serait de nouveau arrêté dans les deux ans suivant sa libération et la confirmation de la réalité de cette prédiction. À partir de ces informations, les chercheurs ont pu évaluer la précision de COMPAS. De plus, les chercheurs ont utilisé les données pour créer des profils ou des vignettes, basés sur les facteurs de risque de chaque accusé, qu’ils ont montrés à plusieurs centaines d’humains non formés recrutés via la plateforme Amazon Mechanical Turk. Ils ont ensuite demandé aux participants s’ils pensaient qu’une personne dans une vignette commettrait un autre crime dans les deux ans.

L’étude de 2018 a révélé que COMPAS affichait une précision d’environ 65%. Les humains individuels étaient légèrement moins corrects, et l’estimation humaine combinée l’était un peu plus. En suivant la même procédure que les chercheurs de cet article, la plus récente a confirmé ces résultats. «La première chose intéressante que nous remarquons est que nous pourrions, en fait, reproduire leur expérience», explique Sharad Goel, co-auteur de la nouvelle étude et spécialiste des sciences sociales en informatique à Stanford. “Mais ensuite, nous avons modifié l’expérience de diverses manières, et nous l’avons étendue à plusieurs autres ensembles de données.” Au cours de ces tests supplémentaires, dit-il, les algorithmes ont montré plus de précision que les humains.

Tout d’abord, Goel et son équipe ont élargi la portée de l’expérience originale. Par exemple, ils ont testé si la précision avait changé lors de la prévision du dossier pour toute infraction par rapport à un crime violent. Ils ont également analysé les évaluations de plusieurs programmes: COMPAS, un algorithme différent d’évaluation des risques appelé le Level of Service Inventory-Revised (LSI-R) et un modèle que les chercheurs ont construit eux-mêmes.

Deuxièmement, l’équipe a modifié les paramètres de son expérience de plusieurs manières. Par exemple, l’étude précédente a donné une rétroaction aux sujets humains après avoir fait chaque prédiction, permettant aux gens d’en apprendre plus pendant qu’ils travaillaient. Goel fait valoir que cette approche n’est pas fidèle aux scénarios réels. «Ce type de rétroaction immédiate n’est pas possible dans le monde réel – les juges, les agents correctionnels, ils ne connaissent pas les résultats des semaines ou des mois après avoir pris la décision», dit-il. Ainsi, la nouvelle étude a donné des commentaires à certains sujets tandis que d’autres n’en ont reçu aucun. “Ce que nous avons trouvé là-bas, c’est que si nous n’avons pas fourni de rétroaction immédiate, les performances ont chuté de façon spectaculaire pour les humains”, a déclaré Goel.

Les chercheurs derrière l’étude originale sont en désaccord avec l’idée que la rétroaction rend leur expérience irréaliste. Julia Dressel était étudiante de premier cycle en informatique au Dartmouth College lorsqu’elle a travaillé sur ce document et est actuellement ingénieur logiciel pour Recidiviz, une organisation à but non lucratif qui construit des outils d’analyse de données pour la réforme de la justice pénale. Elle note que les gens de Mechanical Turk n’ont peut-être aucune expérience du système de justice pénale, contrairement aux individus qui prédisent un comportement criminel dans le monde réel. Son co-auteur Hany Farid, un informaticien qui a travaillé à Dartmouth en 2018 et qui est actuellement à l’U.C. Berkeley, convient que les personnes qui utilisent des outils tels que COMPAS dans la vie réelle ont plus d’expertise que celles qui ont reçu des commentaires dans l’étude de 2018. «Je pense qu’ils ont pris ces commentaires un peu trop à la lettre, car les juges, les procureurs, les commissions des libérations conditionnelles et les agents de probation ont sûrement beaucoup d’informations sur les gens qu’ils accumulent au fil des ans. Et ils utilisent cette information pour prendre des décisions », dit-il.

Le nouveau document a également testé si la révélation de plus d’informations sur chaque rétrograde potentiel avait changé la précision des prédictions. L’expérience originale n’a fourni que cinq facteurs de risque pour chaque prévenu aux prédicteurs. Goel et ses collègues ont testé cette condition et l’ont comparée aux résultats lorsqu’ils ont fourni 10 facteurs de risque supplémentaires. La situation de plus grande information s’apparentait davantage à un scénario judiciaire réel, lorsque les juges auraient accès à plus de cinq informations sur chaque accusé. Goel soupçonnait que ce scénario pourrait faire trébucher les humains, car les données supplémentaires pourraient être distrayantes. “Il est difficile d’intégrer toutes ces choses de manière raisonnable”, dit-il. Malgré ses réserves, les chercheurs ont constaté que la précision des humains restait la même, bien que les informations supplémentaires puissent améliorer les performances d’un algorithme.

Sur la base d’une plus grande variété de conditions expérimentales, la nouvelle étude a conclu que les algorithmes tels que COMPAS et LSI-R sont en effet meilleurs que les humains pour prédire le risque. Cette constatation est logique pour Monahan, qui souligne à quel point il est difficile pour les gens de faire des suppositions éclairées sur la récidive. “Je ne comprends pas comment, dans des situations réelles – lorsque les juges réels sont confrontés à de très nombreuses choses qui pourraient être des facteurs de risque et lorsqu’ils ne reçoivent pas de commentaires – comment les juges humains pourraient être aussi bons que les algorithmes statistiques, ” il dit. Mais Goel prévient que sa conclusion ne signifie pas que les algorithmes doivent être adoptés sans réserve. «Il y a beaucoup de questions ouvertes sur la bonne utilisation de l’évaluation des risques dans le système de justice pénale», dit-il. «Je détesterais que les gens s’éloignent en pensant:« Les algorithmes sont meilleurs que les humains. Et maintenant, nous pouvons tous rentrer chez nous. »»

Goel souligne que les chercheurs étudient toujours comment les algorithmes d’évaluation des risques peuvent coder les biais raciaux. Par exemple, COMPAS peut dire si une personne pourrait être arrêtée à nouveau, mais une personne peut être arrêtée sans avoir commis une infraction. «L’arrêt des délits de faible intensité sera dicté par le lieu où se déroulent les activités de police», a déclaré Goel, «qui est lui-même intensément concentré dans les quartiers minoritaires.» Les chercheurs explorent l’étendue des biais dans les algorithmes depuis des années. Dressel et Farid ont également examiné ces questions dans leur article de 2018. “Une partie du problème avec cette idée que vous allez retirer l’humain de [the] boucler et supprimer le biais est: il ignore le gros problème, gros et gros, qui est que les données historiques sont criblées de biais – contre les femmes, contre les personnes de couleur, contre les LGBTQ », dit Farid.

Dressel note également que même lorsqu’ils surpassent les humains, les outils d’évaluation des risques testés dans la nouvelle étude n’ont pas une très grande précision. «L’outil COMPAS représente environ 65% et le LSI-R une précision d’environ 70%. Et quand vous pensez à la façon dont ces outils sont utilisés dans un contexte de salle d’audience, où ils ont une signification très profonde – et peuvent avoir un impact très important sur la vie de quelqu’un s’ils sont détenus en prison pendant des semaines avant leur procès – je pense que nous devrions être les maintenir à un niveau supérieur à 65 à 70 pour cent de précision – et à peine mieux que les prévisions humaines. “

Bien que tous les chercheurs aient convenu que les algorithmes devraient être appliqués avec prudence et sans confiance aveugle, des outils tels que COMPAS et LSI-R sont déjà largement utilisés dans le système de justice pénale. «J’appelle cela de l’utopie techno, cette idée que la technologie résout simplement nos problèmes», dit Farid. «Si les 20 dernières années nous ont appris quelque chose, [they] aurait dû nous apprendre que ce n’est tout simplement pas vrai. “