Faut-il auditer les algorithmes ?

Tech pour l’Audit et la Régulation des Algorithmes à INRIA

 

Tous plongés dans un bain d’algorithmes

Les algorithmes sont partout. Les boomers se souviennent, dans les années 90, d’avoir désobéi avec malice aux injonctions de leur GPS de voiture. C’était un des premiers dialogues grand public entre un homme et un algorithme, avec une voix de synthèse aussi suave que comminatoire : « Faîtes … demi-tour ! ».

Aujourd’hui, les recommandations algorithmiques font partie de notre vie, tant elles nous sollicitent de leurs stimuli quotidiens. Nos adolescents reçoivent en moyenne plus de 300 recommandations algorithmiques par jour, qu’ils déclineront ou valideront d’un mouvement de pouce, comme sur TikTok. Et ce même pouce, plus vieux et surentraîné, sera un jour le pass sentimental vers l’heureux.se élu.e de Tinder.

TikTok, Tinder, Deliveroo, Uber, Expedia, Booking.com, Spotify, Youtube, Google, Amazon, LinkedIn, Facebook, Instagram, Twitter … dix peut être quinze entreprises dans le monde, souvent américaines ou chinoises, nourrissent leurs algorithmes avec des centaines de milliards de traces de nos interactions avec eux. A la seconde près, et parfois implicitement, sans que nous ayons eu le sentiment d’exprimer notre avis. Nous sommes deux milliards de dresseurs humains à les entraîner comme des animaux de compagnie, à coup de récompenses (achats, clicks, vues) et de punitions (infidélité, abandon de panier, attrition). Ils en vivent. Les français à eux-seuls cumulent plus d’un milliard de transactions commerciales sur Internet chaque année.

 

Un florilège de droits bafoués

Les algorithmes nous connaissent si bien qu’ils abusent de leur pouvoir et bafouent désormais nos droits :

  • Le droit de la concurrence, le plus voyant, où les market-places et autres moteurs de recherche ont une fâcheuse tendance à mettre en avant leurs propres produits, au détriment de ceux de leurs fournisseurs/partenaires. C’est le self-preferencing, et c’est illégal quand on est en position dominante.
  • Le droit du consommateur. On ne compte plus les pratiques commerciales trompeuses (pourquoi cet hôtel m’est-il présenté en haut de l’écran, en bleu, l’ordre est-il vraiment lié à mes préférences ?), les démarches commerciales agressives (« il ne reste plus que 2 places à ce prix-là ») et autres architectures de choix trompeuses qu’on appelle les « dark patterns » et qui brident le consentement éclairé du consommateur.
  • Le droit au respect de la vie privée, bien entendu, quand nos données sont capturées puis diffusées ou exploitées sans notre consentement. L’usage de ces données pouvant donner lieu à des traitements différenciés dans l’accès à certains services (un prix à la tête du client par exemple), quand ce n’est pas à des campagnes politiques ultra-ciblées.
  • Et le droit du travail. Une plateforme de livraison de repas à domicile a eu la judicieuse idée d’utiliser les jours d’arrêt maladie dans les critères de notation de ses livreurs. C’est interdit et la justice italienne l’a sanctionnée à la demande d’un syndicat.

Les sanctions dépassent régulièrement le milliard d’euros, mais que valent-elles en face de groupes qui génèrent plusieurs centaines de milliards de dollars de chiffre d’affaires chaque année.

 

Qui surveille les algorithmes ?

Que fait donc la police dans ces zones de non droit du numérique ?

 

Si vous voulez surveiller que TF1 respecte la loi en terme de diffusion de contenu, vous n’avez qu’une grille de programme à regarder. Et au pire une vingtaine d’heures à visionner chaque jour, vous vous en remettrez. Il n’en va pas de même pour une plateforme de contenus en ligne. Comment vérifier qu’une vidéo anti-vax désinformatrice a été poussée vers Killian, sans qu’il n’en ait fait la demande explicite ? Comment vérifier que la position de cet hôtel dans la liste recommandée à Sophie n’est pas liée à ses préférences mais à la commission que cet hôtel apporte à l’agence de voyages en ligne ? Comment s’assurer que l’algorithme ne discrimine pas, qu’il n’exploite pas le genre ou le lieu de résidence de l’internaute dans ses décisions d’accord de crédit ?

Si l’on se place du point de vue d’un auditeur externe à l’organisation qui a produit l’algorithme ou l’assemblage d’algorithmes donnant lieu à une décision litigieuse (comme l’accord d’un crédit, comme le classement d’un employé, comme un prix de scie sauteuse en période de soldes, comme le rang d’une recommandation de vidéo ou de partenaires de rencontre), la tâche d’audit s’avère complexe et ceci pour plusieurs raisons.

En premier lieu, il est de moins en moins possible d’auditer à l’œil nu. Et envoyer un questionnaire à la plateforme est à la fois naïf et inefficace statistiquement. Il est toujours facile, pour chaque cas douteux de fournir une explication raisonnable de la décision prise quand on est la plateforme qui a produit l’incident. « Je n’ai pas refusé ce client pour sa couleur de peau monsieur le défenseur des droits, mais parce qu’il était en survêtement ».

 

L’audit en question

On aimerait militer pour une exigence de pure transparence du code (comme pour Parcoursup, qui utilise l’algorithme de Gale-Shapley, documenté depuis 1962) ou du modèle sous-jacent. Mais elle n’a pas beaucoup de chances de succès en intelligence artificielle. Les algorithmes de Google/DeepMind qui rivalisent avec les meilleurs outils de traitement automatique de la langue ont plus de 280 milliards de paramètres à ce jour. Et même des outils de plus vieille génération, comme les algorithmes de yield management (Pricing Dynamique) des compagnies aériennes ou d’Uber, mixent des couches de technologies et des modèles linéaires et stochastiques avec plusieurs millions d’équations. Les auteurs eux-mêmes de ces codes (dont une partie croissante sont des robots), fonctionnent souvent en silo. Ils laissent parfois les souches algorithmiques s’auto-sélectionner à la performance (techniques de A/B testing automatisées), et ne sont plus toujours capables de procéder à un audit en profondeur.

Peut-on alors auditer “en boîte noire” un algorithme, sans connaître ni sa technologie ni ses “règles” ou ses modèles, implicites ou explicites ?

  • Légalement et techniquement, il faut d’abord pouvoir accéder à l’algorithme dans ses conditions d’usage réelles. Sortir l’algorithme de la plateforme pour le mettre dans un bocal et l’observer “à froid”, in vitro, ne permet que des tests partiels. Auditer en conditions réelles, in vivo, peut poser des problèmes si l’acteur audité ne facilite pas l’accès. Les évolutions du cadre réglementaire européen (le Digital Services Act et le Digital Market Act, entre autres) semblent s’orienter dans le sens d’une plus forte auditabilité et donc d’une participation volontaire et obligatoire de celui-ci en face de l’auditeur.
  • Contradictoirement, il faut que la technique de sonde employée par l’auditeur ne soit pas détectable par l’algorithme à auditer. En effet, si le comportement est robotique ou ne serait-ce que trop atypique, l’algorithme pourra se sur-adapter à la requête et donc biaiser son comportement, voire le débiaiser le moment venu. C’est le syndrome Volkswagen en pire car les plateformes sont naturellement entraînées à détecter les robots. Créer des cas d’usage de synthèse, indétectables, est un sujet pointu en data-science, d’autant plus complexe que le nombre de dimensions qui caractérisent l’usage est élevé.
  • Mathématiquement. Détecter un biais ou une déloyauté revient à explorer un très large espace de requêtes possibles à l’algorithme. Par exemple il faudrait tester en masse des configurations historiques client, une partie du catalogue de produits, un ensemble de conditions d’usage influençant potentiellement la réponse de l’algorithme. L’objectif est de trouver des circonstances dans lesquelles le biais ou la tromperie est “flagrant”. Ces circonstances devront être à la fois représentatives des usages de la plateforme et induire un préjudice significatif. C’est un peu comme observer en vol un tissu de montgolfière à la loupe, en quête de coutures mal faites.
  • A valeur probante. Même si la détection isole des zones de flagrant délit significatives (dans le cadre du test opéré), il faut encore que la méthode d’échantillonnage soit reproductible, donc statistiquement probante auprès de l’auditeur. Les standards de preuve (de fraude, de discrimination, de favoritisme, de collusion algorithmique) sont encore très “humains”. Si l’on cherche à prouver une collusion en cartel, par exemple, il s’agit aujourd’hui de récolter des traces de rendez-vous ou de courriers entre les directions commerciales des cartels en cause, afin de prouver une « entente ». Des standards adaptés aux fraudes humaines prendront du temps à être remplacés par des preuves construites par des machines pour observer des machines.

 

Les algorithmes se parlent aussi dans notre dos.

 

Des algorithmes pour surveiller des algorithmes ?

La détection de déloyautés algorithmiques n’est pas qu’une affaire d’outillage. C’est une approche interdisciplinaire, nécessitant une collaboration entre les hommes de l’art (de la répression des fraudes, du respect de la conformité aux règles de la concurrence, du défenseur des droits, etc.), juristes ou économistes en interaction avec des ingénieurs de la donnée et des data-scientists. Ce dialogue ne va pas de soi. Les outils ne seront qu’un maillon du cycle de vie de l’enquête, limitant l’effort des agents, assemblant des faisceaux d’indices et dégageant des zones litigieuses. Les perquisitions ou la recherche de données internes à la plateforme (comme l’état des stocks ou les coûts d’achat) resteront incontournables pour valider ou invalider des scénarios. Les observations ne sauraient être ponctuelles mais « longitudinales », comme des tests EPO en dopage sportif, afin de mesurer des dynamiques à l’œuvre, l’algorithme influant sur le comportement client, venant à son tour nourrir l’algorithme. Les observations devront aussi se garder du “déni de service” en sur-échantillonnant la plateforme à tout va, ce qui perturberait son fonctionnement : évitons de multiplier les prise de sang pendant la course !

L’évolution du cadre réglementaire, la pression politique et médiatique, les abus répétés de position dominante des gros acteurs du numérique, nous font penser que les circonstances sont réunies pour que naisse un écosystème de l’audit algorithmique. Une “RegTech” devrait pouvoir émerger, où la France a une carte certaine à jouer en usant de sa sensibilité culturelle, de sa culture informatique et mathématique, de ses laboratoires de recherche déjà positionnés autour de sujets proches de l’explicabilité algorithmique ainsi que sa vigoureuse communauté de data-activistes.

 

Laisser un commentaire