https://frosthead.com

L'intelligence artificielle génère des visages humains basés sur leurs voix

Un nouveau réseau de neurones mis au point par des chercheurs du Massachusetts Institute of Technology est capable de construire une approximation approximative du visage d'un individu sur la base d'un extrait de son discours, article publié dans les rapports arXiv du serveur de pré-impression.

L’équipe a formé l’outil d’intelligence artificielle, un algorithme d’apprentissage automatique programmé pour «penser» de la même manière que le cerveau humain, à l’aide de millions de clips en ligne capturant plus de 100 000 locuteurs différents. Surnommé Speech2Face, le réseau de neurones a utilisé cet ensemble de données pour déterminer les liens entre les indices vocaux et des caractéristiques faciales spécifiques. comme les scientifiques l’ont écrit dans l’étude, l’âge, le sexe, la forme de la bouche, la taille des lèvres, la structure osseuse, la langue, l’accent, la vitesse et la prononciation jouent tous un rôle dans la mécanique de la parole.

Selon Melanie Ehrenkranz de Gizmodo, Speech2Face s’appuie sur les associations entre l’apparence et la parole pour générer des rendus photoréalistes d’individus de face aux expressions neutres. Bien que ces images soient trop génériques pour être identifiées comme une personne spécifique, la majorité d'entre elles identifient avec précision le sexe, la race et l'âge des locuteurs.

Fait intéressant, explique Jackie Snow pour Fast Company, la nouvelle recherche se fonde non seulement sur des recherches antérieures concernant les prédictions d’âge et de sexe fondées sur la parole, mais met également en lumière les liens entre la voix et les «caractéristiques cranofaciales» telles que la structure du nez.

Les auteurs ajoutent: «Ceci est réalisé sans information préalable ni existence de classificateurs précis pour ces types de caractéristiques géométriques fines."

Pourtant, l'algorithme a ses défauts. Comme le note Mindy Weisberger de Live Science, le modèle a du mal à analyser les variations du langage. Speech2Face a reproduit un visage de l’ethnie appropriée, mais un individu asiatique parlant chinois, par exemple, a reproduit le visage, mais lorsque le même individu a été enregistré en anglais, l’intelligence artificielle a généré l’image d’un homme blanc.

Dans d'autres cas, les hommes aigus, y compris les enfants, ont été identifiés à tort comme des femmes, révélant ainsi le biais de genre du modèle consistant à associer des voix graves aux hommes et des voix aiguës aux femmes. Etant donné que les données sur la formation sont en grande partie dérivées de vidéos éducatives postées sur YouTube, les chercheurs soulignent en outre que l'algorithme ne parvient pas à "représenter de manière égale toute la population mondiale".

Selon Jane C. Hu de Slate, l’utilisation des vidéos de YouTube pour la recherche scientifique est tout à fait claire. Ces clips sont considérés comme des informations accessibles au public; Même si un utilisateur détient les droits d'auteur de leurs vidéos, les scientifiques peuvent inclure les éléments dans leurs expériences dans le cadre d'une clause d'utilisation équitable.

Mais l'éthique de cette pratique est moins simple. Nick Sullivan, responsable de la cryptographie chez Cloudflare, s'est dit surpris de voir une photo de lui-même présentée dans l'étude de l'équipe du MIT, n'ayant jamais signé de renonciation ni entendu les chercheurs directement. Bien que Sullivan ait dit à Hu qu'il aurait été «agréable» d'être informé de son inclusion dans la base de données, il reconnaît que, compte tenu de la taille même du pool de données, il serait difficile pour les scientifiques de contacter toutes les personnes représentées.

Au même moment, Sullivan conclut: «Puisque mon image et ma voix ont été citées en exemple dans le document Speech2Face, plutôt que simplement utilisées comme point de données dans une étude statistique, il aurait été poli de contacter demande ma permission.

Une application potentielle réelle de Speech2Face dans le monde utilise ce modèle pour «attacher un visage représentatif» à des appels téléphoniques sur la base de la voix d'un locuteur. Snow ajoute que la technologie de reconnaissance vocale est déjà utilisée dans un certain nombre de domaines, souvent sans que les personnes en aient connaissance ou le consentement exprès. L'année dernière, Chase a lancé un programme «Voice ID» (identification de la voix) qui permet de reconnaître les clients de cartes de crédit appelant une banque, tandis que les établissements pénitentiaires du pays construisent des bases de données sur les «empreintes vocales» des personnes incarcérées.

L'intelligence artificielle génère des visages humains basés sur leurs voix