Le capital confiance des algorithmes est un brin usurpé

On Avr 21, 2021

Des chercheurs américains montrent que pour répondre à une question difficile, les gens ont tendance à privilégier une suggestion apportée par un programme informatique plutôt que par un humain.

Combien de personnes sur cette photo de groupe de la Wikiconvention de septembre 2019 à Bruxelles ?

Pierre Lerouge CC-BY-SA-4.0

CONFIANCE. Combien de personnages figurent sur la célèbre pochette du disque Sgt. Pepper’s Lonely Hearts Club Band des Beatles ? On peut donner une estimation à l’œil nu, disons, entre 40 et 60. Maintenant, imaginons qu’un algorithme de vision par ordinateur rende son verdict et annonce 70. Il y a toutes les chances que vous vous rangiez à l’expertise du programme. Trois chercheurs en gestion des systèmes d’information de l’université de Géorgie, aux États-Unis, ont mené une série d’expériences de ce type pour montrer que les gens avaient en effet tendance à suivre la réponse fournie par un algorithme plutôt que celle de personnes tierces qui chercheraient à vous aider. Leur article est paru le 13 avril 2021 dans les Scientific Reports de la revue Nature.

Un programme informatique ne se fatigue pas, ne met jamais de mauvaise volonté, n’a pas de préjugés et reste rationnel en toute circonstances. C’est en tout cas sur ces arguments, plus ou moins conscients, que cette confiance repose. D’autant plus quand il s’agit d’une opération apparemment aussi neutre que compter.

Un algorithme fictif entraîné sur 5000 images

L’équipe a conçu trois expériences basées sur le même principe : demander à des participants recrutés sur la plate-forme en ligne Amazon Mechanical Turk d’évaluer le nombre de personnes présentes sur une dizaine de photos, l’exercice allant du plus simple (15 personnes) au plus difficile (5.000 personnes). Les participants donnent un chiffre. Puis les chercheurs soumettent deux estimations, l’une censément issue d’un algorithme, l’autre est une moyenne des estimations données par 5.000 autres personnes. Et les chercheurs demandent aux participants s’ils s’en tiennent à leur réponse initiale ou s’en remettent à l’une des deux suggestions.

De l’algorithme, les participants ne savent qu’une seule chose : il a été entraîné sur une base de 5.000 images. Mais ils ignorent quelle est cette base de données, quels sont les développeurs, quel est le niveau d’efficacité de l’algorithme. “Nous n’avons pas réellement utilisé d’algorithme pour produire les suggestions, nous avons simplement prétendu l’avoir fait, idem pour les estimations censées provenir d’autres personnes”, précise à Sciences et Avenir Eric Bogert, enseignant-chercheur coauteur de cette recherche.

Pour la première expérience, un groupe de 530 personnes a été divisé en deux moitiés. L’une a bénéficié de l’évaluation de l’algorithme, l’autre de l’estimation humaine. Le résultat est net : dans la première moitié, ils sont 11% de plus que dans la seconde à modifier leur estimation. Et quand l’exercice se complique, avec une augmentation du nombre de personnes sur les photos, ceux qui font confiance à l’algorithme sont 14,6% plus nombreux que ceux qui s’en remettent à des suggestions humaines.

La deuxième expérience s’adresse à 514 autres participants. Chacun reçoit cette fois les deux estimations, algorithmique pour 5 photos et humaine pour les 5 autres. “Les résultats renforcent ceux de la première expérience”, écrivent les chercheurs dans leur article. “Il existe un net effet de l’appréciation algorithmique mais cet impact est entièrement dû à la confiance dans les algorithmes en matière de problèmes difficiles à résoudre.”

La qualité du conseil algorithmique mis à l’épreuve

“Pour ces deux premières expériences, les suggestions données correspondaient toujours au bon nombre de personnes sur l’image, calculé par l’éditeur de la base de données, complète Eric Bogert. Ce parti pris nous permettait de ne pas dépendre des performances d’un algorithme.”

Par contre, c’est justement la variable de la qualité de la suggestion qui est mise à l’épreuve dans la troisième expérience. Les chercheurs ont à nouveau divisé les participants en deux groupes, ceux qui recevaient une réponse générée par algorithme et ceux qui en avaient une venant d’autres personnes. Au sein de chaque groupe, une moitié des suggestions était correcte, l’autre moitié constituée d’évaluations exagérées de 100% (soit le double de personnes qu’il y a en réalité sur une photo). Autrement dit : l’erreur d’appréciation était quasi évidente.

Or, encore une fois, la confiance envers l’algorithme se confirme. Avec plus de nuances toutefois. Les participants qui choisissent de se fier à l’algorithme sont plus nombreux quand le programme propose la bonne réponse que lorsqu’il en donne une mauvaise. Plus intéressant : l’écart entre le nombre de ceux qui font confiance aux mauvaises propositions et ceux qui suivent les réponses exactes est plus grand quand il s’agit d’une suggestion de l’algorithme. “Les sujets pénalisent plus les algorithmes d’être de mauvais conseil”, résume l’équipe.

Pour théorique qu’il est, ce travail renvoie à l’usage des algorithmes dans des cas de figure réels. “Par exemple, si je projette d’acheter une maison, je vais comparer avec ce que mes amis me disent des endroits où je devrais habiter, tandis que Zillow [un site d’immobilier], qui utilise un algorithme, va me dire que telle ou telle maison est «pour moi». De la même manière, Spotify me recommande de nouvelles musiques à découvrir, et mes amis aussi”, détaille Eric Bogert.

Cette recherche démontre une confiance excessive dans ces outils, une croyance en leur efficacité dès lors qu’une tâche complexe est en jeu, quand bien même ils peuvent avoir un impact sur l’existence de certaines personnes. Il n’est d’ailleurs pas sûr qu’un algorithme saurait distinguer qu’il y a 71 personnages sur la pochette foisonnante de Sgt. Pepper’s Lonely Hearts Club Band.

Source: Sciencesetavenir.fr