Serve Legal a développé avec succès un cadre de test qui intègre un ensemble de données soigneusement sélectionnées et éthiques afin de tester la précision et l'équité des technologies d'estimation de l'âge par biométrie faciale. Les technologies de pointe en matière d'estimation de l'âge vont au-delà de la simple estimation de l'âge du sujet présenté et incluent une fonction de détection du caractère vivant pour une sécurité accrue.

Serve Legal consulte ces fournisseurs de services de vérification de l'âge et d'identité numérique afin de mettre au point le test de détection de vivacité le plus complet qui soit. Cet article explore le paysage actuel des tests et certaines des lacunes qui doivent être comblées afin de soutenir correctement les secteurs de la vérification de l'âge et de l'identité numérique, en permettant aux déployeurs potentiels de ces technologies de faire des comparaisons éclairées.

La détection du caractère vivant est un élément clé de la vérification biométrique de l'âge et de la technologie d'identification numérique.

Son rôle est de vérifier que ce qui est présenté au système biométrique est bien un être humain vivant et non une photo, une prothèse, une vidéo injectée numériquement ou tout autre artefact artificiel. Cette vérification existe pour empêcher les abus tels que la présentation de l'identité numérique d'une autre personne ou l'injection d'une vidéo deepfake afin de tromper l'analyse biométrique.

La détection de présence humaine est utilisée dans un nombre croissant d'applications, notamment dans le secteur bancaire, les services publics et le commerce de détail, pour n'en citer que quelques-unes.

Les techniques de détection de présence peuvent être classées en deux grandes catégories : passives ou actives. La détection passive signifie que l'utilisateur n'a pas besoin d'effectuer d'action spécifique pour interagir avec l'interface qui effectue la détection. La détection active signifie que l'utilisateur doit effectuer des actions telles que cligner des yeux, tourner la tête ou ajuster la distance de la caméra.

Chaque technique présente des avantages et des inconvénients et peut être plus ou moins adaptée à différents contextes de déploiement. Par exemple, la détection passive de vivacité est susceptible d'introduire moins de friction dans le processus pour les utilisateurs, car ceux-ci n'ont pas besoin d'exécuter d'instructions interactives. La détection active du caractère vivant ajoute une certaine friction, mais les fournisseurs de ces technologies affirment que cette friction est compensée par l'augmentation de la précision. Les tests indépendants actuellement disponibles pour les deux fournisseurs ne permettent pas de quantifier ces caractéristiques de manière à pouvoir les comparer et les évaluer en tenant compte à la fois des performances et de l'expérience utilisateur.

Cela représente un défi pour les entreprises telles que les détaillants, les bookmakers, les banques, etc. qui cherchent à intégrer une solution de détection du caractère vivant dans leur système. Lorsqu'elle adopte une telle technologie, une entreprise est susceptible d'effectuer des vérifications préalables telles que :

La précision est-elle suffisante pour le contexte de déploiement ?
L'expérience utilisateur est-elle suffisamment bonne pour satisfaire les clients ?
Quelle solution offre le meilleur compromis entre prévention de la fraude et expérience utilisateur ?

Dans le domaine de la biométrie faciale, le NIST (National Institute of Standards and Technology), une agence gouvernementale américaine, est l'organisme officiel chargé d'établir les critères de performance des algorithmes de reconnaissance et d'analyse faciales. Cependant, la détection du caractère vivant n'entre pas dans le champ des compétences principales du NIST en matière de tests. Cela s'explique par le fait que ses tests biométriques faciaux sont facilités par son accès à des ensembles de données d'images faciales pré-collectées provenant de photos d'identité judiciaires et de contrôles aux frontières, en vertu de son statut d'agence gouvernementale américaine.

Les tests du NIST étant basés sur des ensembles de données d'images statiques, ils ne disposent pas de sujets vivants permettant de tester les systèmes de détection du caractère vivant.

Les solutions passives de détection du caractère vivant disponibles sur le marché qui évaluent le caractère vivant à partir d'une seule capture d'image 2D peuvent être soumises au programme PAD (Presentation Attack Detection) du NIST (National Institute of Standards and Technology) dans le cadre de l'évaluation des technologies d'analyse faciale (FATE). Ce terme est utilisé pour décrire l'efficacité d'un outil d'analyse faciale dans la détection d'une usurpation d'identité, c'est-à-dire lorsqu'un individu malveillant tente de se faire passer pour quelqu'un d'autre dans le but de tromper un contrôle biométrique facial.

Malheureusement, cela brouille les pistes lorsqu'il s'agit de solutions de détection du caractère vivant, car comme le NIST l'indique clairement dans son rapport, Partie 10 : Performances des présentations passives basées sur des logiciels

Algorithmes de détection des attaques (PAD) :« Dans ce test, nous avons évalué des approches PAD passives qui fonctionnaient sur des images pré-collectées sans aucune interaction de l'utilisateur. Les approches PAD qui nécessitent une interaction de l'utilisateur ne sont pas prises en compte dans le cadre du FATE PAD. » (Pour en savoir plus, cliquez ici)

La sémantique de cette déclaration est importante. L'évaluation par le NIST des « approches PAD passives » n'est pas une évaluation des approches passives de détection de la vivacité. À titre d'illustration, l'évaluation d'une attaque PAD passive pourrait consister à prendre un selfie d'une personne portant un masque prothétique coûteux et fabriqué par un expert. L'image 2D capturée à partir du selfie pourrait ensuite être transmise à un système biométrique pour évaluation. Si l'évaluation PAD rejette l'image, l'attaque a été correctement identifiée comme une usurpation et le test a été réussi. Mais un test de vivacité passif, bien qu'il ne nécessite pas que l'utilisateur effectue des actions spécifiques, nécessite une interaction en direct et pas seulement une image 2D pré-collectée. Par exemple, le système peut utiliser des paramètres d'éclairage dynamiques sur l'appareil pendant la prise du selfie, l'image capturée étant évaluée en temps réel pour déterminer si l'éclairage dynamique apparaît comme prévu sur la peau/les yeux humains par rapport au latex, au silicone ou même au verre dans le cas d'une lecture vidéo.

Il convient donc d'être prudent lors de l'évaluation des performances d'un outil passif de détection de présence basé sur cette évaluation PAD. Si un algorithme obtenant un score élevé en matière de sécurité dans ce test PAD peut être considéré comme très performant pour détecter les attaques telles que les images 2D de sujets portant des masques ou brandissant des photos, cela ne revient pas à vérifier que l'utilisateur est physiquement présent au moment de la présentation et peut donc être considéré comme un test de performance moins fiable.

Un score élevé en matière de commodité signifie que l'algorithme présentait un faible taux de détection erronée. Il s'agit d'un indicateur important, mais ce type de commodité est très différent de l'expérience utilisateur que l'on pourrait souhaiter évaluer lorsqu'on compare des solutions de détection active et passive du caractère vivant.

Heureusement, la norme ISO 30107-3:2023 fournit un cadre de test PAD qui couvre la détection du caractère vivant. Malheureusement, les tests disponibles pour cette norme présenteraient des faiblesses qui obligent les secteurs de la vérification de l'âge et de l'identité numérique à exiger des tests plus robustes, indépendants et comparables des systèmes de détection du caractère vivant.

Les préoccupations spécifiques de l'industrie sont que les tests sont trop faciles à réussir, trop variables d'un fournisseur à l'autre et ne tiennent pas compte des attaques par injection numérique.

D'autres lacunes existent dans le domaine des tests en ce qui concerne la garantie que les systèmes sont développés conformément aux meilleures pratiques éthiques. Par exemple, les tests devraient être effectués sur des échantillons suffisamment grands et diversifiés pour détecter toute différence significative dans le taux d'erreur de classification de présentation authentique (BPCER) entre les groupes démographiques. Une telle mesure d'équité est essentielle pour les utilisateurs de ces technologies, qu'il s'agisse de banques, de supermarchés ou autres, afin d'avoir la certitude qu'ils ne contreviendront pas à la législation sur l'égalité en déployant un système de détection de vivacité qui présente un biais dans la détection de vivacité pour certains groupes démographiques.

De plus, les déployeurs de ces technologies ne disposent pas de mesures vérifiées de manière indépendante leur permettant d'effectuer des évaluations fondées sur les risques afin de déterminer quel système offrira l'équilibre optimal entre précision et expérience utilisateur, compte tenu du contexte dans lequel le système sera déployé.

Enfin, il n'existe aucun indicateur permettant de comparer les coûts de fonctionnement des différentes solutions. Par exemple, il est possible, voire probable, que certaines approches nécessitent beaucoup plus de ressources informatiques que d'autres pour effectuer un contrôle de vivacité. Si, dans l'ensemble, ces coûts sont importants, ils pourraient également avoir une incidence sur la prise de décision fondée sur le risque des entreprises qui doivent intégrer la détection de vivacité.

Si vous êtes un fournisseur de solutions de détection du caractère vivant, veuillez contacter notre équipe spécialisée dans la biométrie faciale, qui se fera un plaisir d'étudier vos défis en matière de vérification indépendante des performances, de l'équité, de l'efficacité et d'autres aspects de votre outil.