Transcription du podcast intitulé : Intelligence artificielle, la révolution.

Épisode 7 : Souriez, vous êtes filmé, scanné, tracké…

Dans la rue, dans les parcs, dans les gares, sur votre lieu de travail, dans les hôpitaux, les magasins, les parkings, chez vous aussi peut-être de votre propre initiative, les caméras de surveillance sont partout.

Des millions d’heures d’images, de visages et de comportements sont enregistrés avec un argument : la sécurité. 

« Voici un appel à témoins. Cet homme a été aperçu à plusieurs reprises. Il a été filmé par des caméras de surveillance. Si vous reconnaissez cette personne, veuillez prendre contact avec les enquêteurs via le numéro de téléphone gratuit… »

Des millions d’images… ce sont au fond des bases de données dans lesquelles on peut aller rechercher des informations pertinentes, par exemple, avec l’aide des solutions d’intelligence artificielle à qui on donne des missions comme reconnaître des personnes.

« La caméra permet de capter le visage, donc première chose de le détecter, de détecter les bords. Ensuite, on calcule une signature par rapport à différents points situés entre la bouche, le nez, les yeux, le menton, le front. » (Valerio Burgarello)

Valerio Burgarello est le co-fondateur et directeur technique de Piximate, une start-up basée à La Hulpe.

Valerio Burgarello : Donc qui permet de calculer une signature unique du visage et donc qui permet de reconnaître la personne si la personne revient. Donc on ne reconnaît pas par rapport au visage, mais par rapport à la signature du visage. On n’identifie pas par rapport à un profil Facebook où on pourrait avoir un nom ou ce genre de choses. Donc on a juste une signature qui est en quelque sorte anonyme, si je puis dire.

Journaliste : Je vois que là je m’approche, on voit mon visage qui s’affiche. Un petit cadre bleu qui encercle mon visage, le vôtre aussi d’ailleurs.

V.B. : Oui, c’est ça. En fait, le système détecte qu’il y a un visage. On a dessiné un carré pour que ce soit visuel ici pour la démonstration. Et dans ce carré, en fait, il va prendre des points pour calculer la signature. Donc sur ce calcul ensuite, il va pouvoir définir sur l’écran suivant si c’est un homme ou une femme et alors pour le moment, on est dans la tranche d’âge, on n’est pas catégorique à ce niveau-là. On donne une tranche d’âge de cinq ans.

Journaliste : On peut donc déterminer le sexe, la tranche d’âge, mais aussi détecter les émotions des gens.

V.B. : Pour calculer les émotions, c’est toujours sur base de points – de la signature – et de la comparaison par rapport à différentes ce que l’on appelle des datasets, donc qui est un ensemble d’images sur lesquelles on a appris à l’algorithme qu’une émotion, un sourire par exemple, donc quand certains points sont tirés par rapport aux points normaux, du point neutre du visage. Et sur cette base-là et sur ces différentes images qu’il a enregistrées, il est capable de dire si une personne sourit ou pas. On a trois émotions de bases : le sourire, neutre ou triste.

Comment la machine devient-elle capable de détecter des émotions ? Quelles sont les perspectives qui s’ouvrent avec de telles possibilités ? Va-t-on par exemple pouvoir repérer des comportements terroristes avant le passage à l’acte ? Sommes-nous surveillés partout et tout le temps ? Et au fond, qui utilise ces images aujourd’hui et à quelles fins ?

Petite leçon d’entraînement de la machine. On retrouve Valerio Burgarello.

V.B. : La première étape est de récolter ce qu’on appelle un dataset, donc des images annotées. Donc, qu’on ait une image, si on travaille sur l’émotion, beaucoup d’images, pardon, des personnes souriantes pour qu’elles soient annotées en tant que souriantes.

Journaliste : C’est en quelque sorte la nourriture qu’on donne à la machine.

V.B. : C’est ça. Donc elle va vraiment apprendre par rapport à ces informations-là. On passe tout ça dans notre algorithme qui permet donc d’apprendre à la machine que tel point du visage donne l’émotion souriante.  Une fois que c’est dans la base de données, à chaque nouvelle captation d’image, on la passe dans ce système et la machine est capable de dire si elle rentre dans l’une ou l’autre catégorie. Et donc, si toutes les conditions sont remplies, alors au final, la machine estime que la personne est souriante avec un taux de confiance.

Journaliste : Quel est aujourd’hui le pourcentage de fiabilité de votre algorithme ?

V.B. : Alors à l’heure d’aujourd’hui, on oscille entre 85 et 90%.

Journaliste : Et plus on va l’entraîner, plus il sera efficace ?

V.B. : Oui, c’est ça. Plus on va l’entraîner, plus il sera efficace. Alors pour gagner des pour cent, il faut des milliers d’images supplémentaires.

Journaliste : Elles viennent d’où vos images ? Puisque vous avez bien sûr des clients qui vont vous en fournir. Mais il a bien fallu entraîner la machine à la base. Alors du coup, quelles images avez-vous utilisées pour commencer ?

V.B. : Donc là, on a des datasets qu’on peut acheter sur des sites spécialisés. Il y a des datasets qu’on a achetés, il y a des datasets gratuits, libres d’utilisation. Google en propose, Microsoft en propose, par exemple. Puis, nous utilisons nos propres données de nos caméras pour améliorer notre algorithme, en fait.

Journaliste : Donc vous en gros, vous êtes un super entraîneur de machine, quoi… vous êtes un coach.

V.B. : C’est ça. Je suis un professeur, j’apprends… (rire)

Et c’est ainsi que la machine devient capable de reconnaître sur un visage qu’elle n’a jamais vu, une émotion dont elle a appris les caractéristiques.

Alors synthétisons. Chez Piximate, on travaille essentiellement dans le retail, les magasins. Grâce aux images des caméras de surveillance, on peut donc définir la signature d’un visage qu’on pourrait définir par une sorte d’empreinte chiffrée de ses caractéristiques, ainsi que son âge, son sexe, ses émotions, sa présence aussi dans le point de vente, le temps qu’une personne reste, si elle revient plusieurs fois.

Laure Uytdenhoef est la CEO de Piximate.

L.U. : Ça permet aux retailers, donc aux magasins, de pouvoir mieux connaître leurs consommateurs et leurs visiteurs en points de vente réels. En fait, à l’heure actuelle, le e-commerce est beaucoup plus à la pointe au niveau de l’analyse des comportements des visiteurs que les points de vente réels. Et donc ça permet de pouvoir leur donner des informations qu’ils pourront utiliser eux-mêmes pour typiquement adapter toute une série de choses. Un exemple très concret : si une marque propose un produit qui est destiné au départ aux hommes de 25 à 30 ans, mais qu’ils se rendent compte que les consommateurs qui viennent le chercher en magasin sont en fait des femmes de 35 ans ou 40 ans, eh bien, deux possibilités s’offrent à eux : soit adapter la communication, soit adapter le produit. Donc ça sert à ça. Ça sert également à pouvoir réorganiser les points de vente et aussi, par exemple, les horaires d’ouverture ou le nombre de caisses qui sont ouvertes à certaines heures de la journée, ce qui aura évidemment un impact sur la satisfaction client.

Voilà pour le marketing. Avec la reconnaissance des émotions on peut voir si un client est satisfait de son passage au magasin ou si son interaction avec un vendeur s’est bien passée. Mais figurez-vous que Piximate collabore aussi avec la gendarmerie française sur cette question de reconnaissance des émotions.

Rémy Millescamps : La gendarmerie est une institution qui existe depuis de nombreuses années et qui a toujours été proche du citoyen.

Rémy Millescamps est le CEO de DC Communication, une boîte française qui aide les institutions publiques, dont la gendarmerie, à faire leur transition numérique.

R.M. : Et la satisfaction, l’accompagnement du citoyen est quelque chose de particulièrement important. Dans une stratégie de mesure de la satisfaction, c’est aussi de recréer la proximité avec le citoyen, une confiance, et de pouvoir continuer à échanger. Donc il y a vraiment un objectif d’amélioration de l’institution, mais aussi l’accompagnement des gendarmes au quotidien puisque quand vous avez des gens qui sont satisfaits du travail des gendarmes, c’est beaucoup plus confortable aussi pour le gendarme de réaliser son devoir.

L’objectif est le même que dans les magasins. Les visages des citoyens sont scrutés en entrant et en sortant du commissariat pour évaluer leur satisfaction du service reçu. Les citoyens ne sont pas individuellement prévenus, mais un affichage obligatoire mentionne la présence d’une caméra de surveillance. Pour l’instant, trois brigades sont équipées de la solution d’intelligence artificielle de Piximate. C’est un test. Mais Rémy Millescamps envisage déjà la suite.

R.M. : Vous savez, la plateforme Piximate a des champs de possible très larges. Ce qui est fabuleux avec l’intelligence artificielle, c’est qu’on continue à la développer. Donc on va pouvoir utiliser cette plateforme pour de nouveaux usages et la faire évoluer. On peut aussi accompagner et mieux aider les gendarmes qui peuvent être sous pression dans leur quotidien, avoir des difficultés, des douleurs, de la tristesse, voire parfois passer à des actes terribles. Cette plateforme d’émotions va permettre aussi en interne d’alerter peut-être la gendarmerie sur des comportements anormaux et interagir directement en avance pour mieux accompagner certains gendarmes qui pourraient être en grosse difficulté d’émotions.

En France en 2018, 35 policiers et 33 gendarmes se sont suicidés. 2019 suit déjà la même tendance. Le problème est préoccupant et je comprends l’idée. Mais quelque chose m’intrigue malgré tout. Être scruté au boulot, scruté dans ses émotions, jour après jour, est-ce que ce n’est pas un peu intrusif ?

R.M. : Ça devient intrusif à partir du moment où vous utilisez un service numérique à mauvais escient. Ça devient positif à partir du moment où vous pouvez détecter en amont et de pouvoir accompagner. Là, je laisse charge à la gendarmerie de juger évidemment le bien fondé et de prendre les décisions. Mais ces données, à partir du moment où elles ne seront jamais publiques et rendues publiques, vous avez dans votre devoir de citoyen, ou en tout cas de gendarme, aujourd’hui toute latitude. Vous êtes déjà jugé par des managers et vous êtes accompagné. Donc c’est une façon complémentaire pour un officier de mieux accompagner ses gendarmes puisqu’il en va de sa responsabilité.

Elles sont partout en ville, discrètes. Mais savez-vous que ces caméras peuvent aujourd’hui vous repérer grâce à la couleur de vos vêtements et ainsi vous suivre dans la rue ?  

Bon… et sinon, caméras de surveillance, détection des émotions, gendarmerie… Moi j’entends ça, je ne sais pas vous, mon esprit s’emballe. Est-ce qu’on ne pourrait pas imaginer détecter des comportements suspects dans les lieux publics ? Déceler par exemple le moment où une manifestation va dégénérer ?

Laure Uytdenhoef de Piximate : Oui, tout à fait. C’est quelque chose qu’on peut facilement mettre en place. Il faut, je pense, grouper quelques informations, mais qu’on peut avoir à l’heure actuelle, à savoir, le nombre de personnes qui est détecté dans un lieu bien précis. Donc, si forcément il augmente de manière significative, ça veut dire qu’il y a une foule qui est en train de se créer. Et donc ça, on peut déjà le savoir à l’heure actuelle. Et puis, en couplant cette information-là avec la détection d’émotions, si on voit qu’il y a de plus en plus de personnes sur l’image qui ont effectivement une émotion négative, d’agressivité ou de colère, alors effectivement on peut considérer qu’il y a un danger potentiel et qu’il faut attirer l’attention. La machine est capable d’envoyer une alerte en disant : « On a détecté quelque chose de suspect. Regardez, faites intervenir un œil humain pour regarder si on a raison. » auquel cas alors effectivement on peut faire intervenir, dans ces cas-là, les autorités de manière beaucoup plus rapide que ce que l’on peut faire actuellement.

Journaliste : Et au niveau des comportements individuels ? L’intelligence artificielle pourrait-elle repérer un criminel, voire un terroriste avant qu’il n’agisse ?

L.U. : Au niveau technologique, la réponse est oui. La mise en pratique est par contre plus compliquée parce qu’on doit définir ensemble ce qu’on considère comme étant un comportement suspect et ces comportements peuvent être évidemment très variables. Or, la machine ne détectera que la série de comportements qu’on lui a apprise. Elle n’est pas capable de réfléchir par elle-même et de faire des déductions et des extrapolations, en tout cas pas de manière illimitée. Et donc il est évident que si on lui donne une série de dix comportements suspects, elle sera capable à force de les reconnaître et d’envoyer une alerte en disant : « Voilà, on vient d’en détecter un, vous pouvez intervenir très rapidement. » Mais ces comportements peuvent être tout à fait changeants et s’il y en a un onzième qui intervient, la machine n’aura jamais détecté le onzième et ne sera pas capable de le reconnaître.

L’IA peut donc venir en support aider les services de sécurité à agir. Mais du coup, tant qu’on parle de sécurité, je pose la question à Rémy Millescamps : est-ce qu’il est possible aujourd’hui en associant cette technologie de reconnaissance des émotions à d’autres éléments de fabriquer un détecteur de mensonges ultra-performant ?

R.M. : Je vais être clair avec vous, Marie. Il est absolument possible de le faire. La question suite à ça, c’est évidemment une question d’éthique, mais une question aussi de fiabilité. Voyons-le comme un support à une aide. Il y a deux choses. C’est que dans le cadre d’une enquête particulière, vous pourriez détecter par rapport aux émotions, mais pas seulement, coupler ça à des sauts de température et aussi de pression sanguine puisqu’avec les comportements de l’œil vous savez qu’on peut détecter la pression sanguine à travers le regard de personnes. Donc on va pouvoir coupler un certain nombre d’informations statistiques qui vont nous donner des tendances sur le fait qu’une personne puisse mentir ou pas.

Des images, des visages, des émotions… tout cela peut donc s’analyser et donner des informations importantes à qui aura accès à ces images et utilisera les bons algorithmes. Et si ce ne sont pas des infos d’identification, si ce n’est comme on le disait au début qu’une signature de notre visage, ce sont tout de même des informations liées à ce que nous sommes. Il suffirait de croiser ces signatures avec, par exemple, un profil Facebook sur lequel figure notre nom, notre ville de résidence et tant d’autres choses, et on obtiendrait une somme d’éléments permettant de nous cerner assez précisément. Qui nous sommes, ce que nous faisons, où nous allons, notre caractère, nos goûts, nos réactions…

Aujourd’hui, c’est interdit. Le Règlement général sur la protection des données ne permet pas de croiser de telles informations sans le consentement des personnes. Et seules les informations anonymisées peuvent circuler.

Mais certaines choses sont faisables. Et on retrouve Laure Uytdenhoef de Piximate.

L.U. : C’est tout à fait envisageable au cas où notre client à nous, donc la marque ou le magasin, aurait dans sa propre base de données qui ne viennent pas de nous, une photo du visage de son client. Et donc c’est possible par exemple de relier la carte de fidélité du client final avec notre technologie. On peut tout à fait envisager de pouvoir reconnaître, nous, un client de manière cette fois-ci personnelle, et donc plus anonyme, s’il a accepté dans les conditions de la carte de fidélité d’être pris en photo et que son image soit utilisée dans le cadre de l’analyse que nous pouvons faire pour le client. Et donc technologiquement, c’est faisable, oui. Est-ce qu’on le fait à l’heure actuelle ? Non.

Pour un magasin, cela permet de relier le comportement sur le net, l’exposition publicité et le comportement en point de vente. On peut ainsi tracer le parcours de consommation du client, des données évidemment très précieuses.

Quant à l’utilisateur que cela peut déranger, on lui dira qu’il fallait lire les conditions d’utilisation.