Grâce aux progrès de l'électronique et des neurosciences, les chercheurs ont pu réaliser des choses remarquables avec des dispositifs d'implant cérébral, tels que la restauration d'un semblant de vision pour les aveugles. En plus de restaurer les sens physiques, les scientifiques recherchent également des moyens novateurs de faciliter la communication pour ceux qui ont perdu la capacité de parler. Un nouveau «décodeur» recevant des données d'électrodes implantées dans le crâne, par exemple, pourrait aider les patients paralysés à parler en utilisant uniquement leur esprit.
Des chercheurs de l'Université de Californie à San Francisco (UCSF) ont mis au point une méthode en deux étapes pour transformer les signaux cérébraux en discours synthétisé par ordinateur. Leurs résultats, publiés cette semaine dans la revue scientifique Nature, ouvrent la voie à une communication plus fluide pour les personnes qui ont perdu la capacité de parler.
Depuis des années, les scientifiques tentent d'exploiter les intrants neuronaux pour redonner la parole à des personnes que les dommages neurologiques qui les empêchent de parler, comme les survivants d'un AVC ou les patients atteints de SLA. Jusqu'à présent, bon nombre de ces interfaces cerveau-ordinateur comportaient une approche lettre par lettre, dans laquelle les patients déplacent leurs yeux ou leurs muscles faciaux pour exprimer leurs pensées. (Stephen Hawking a dirigé son synthétiseur de parole à l'aide de petits mouvements dans la joue.)
Mais ces types d’interfaces sont lents: la plupart produisent 10 mots à la minute, soit une fraction de la vitesse de parole moyenne de 150 mots par personne. Pour une communication plus rapide et plus fluide, les chercheurs de l’UCSF ont utilisé des algorithmes d’apprentissage approfondi pour transformer les signaux neuronaux en phrases parlées.
«Le cerveau est intact chez ces patients, mais les neurones - les voies qui mènent à vos bras, à votre bouche ou à vos jambes - sont en panne. Ces personnes ont un fonctionnement et des capacités cognitifs élevés, mais elles ne peuvent pas accomplir de tâches quotidiennes telles que se déplacer ou dire quoi que ce soit », explique Gopala Anumanchipalli, co-auteur de la nouvelle étude et chercheur associé spécialisé en chirurgie neurologique à l'UCSF. «Nous contournons essentiellement le chemin qui est en panne."
Les chercheurs ont commencé avec des données d'activité cérébrale à haute résolution recueillies auprès de cinq volontaires sur plusieurs années. Ces participants - qui avaient tous une fonction de parole normale - suivaient déjà un processus de surveillance du traitement de l'épilepsie impliquant l'implantation d'électrodes directement dans leur cerveau. L'équipe de Chang a utilisé ces électrodes pour suivre l'activité dans les zones du cerveau liées à la parole pendant que les patients lisaient des centaines de phrases.
À partir de là, l’équipe UCSF a mis au point un processus en deux étapes pour recréer les phrases parlées. Premièrement, ils ont créé un décodeur pour interpréter les modèles d'activité cérébrale enregistrés en tant qu'instructions pour déplacer des parties d'un appareil vocal virtuel (y compris les lèvres, la langue, la mâchoire et le larynx). Ils ont ensuite développé un synthétiseur utilisant les mouvements virtuels pour produire le langage.
D'autres recherches ont tenté de décoder les mots et les sons directement à partir de signaux neuronaux, en sautant l'étape intermédiaire du décodage du mouvement. Cependant, une étude publiée l'année dernière par les chercheurs de l'UCSF suggère que le centre de la parole de votre cerveau se concentre sur la manière de déplacer le conduit vocal pour produire des sons, plutôt que sur les sons résultants.
"Les schémas de l'activité cérébrale dans les centres de la parole sont spécifiquement conçus pour coordonner les mouvements du tractus vocal, et ce n'est qu'indirectement lié à la parole elle-même", Edward Chang, professeur de chirurgie neurologique à l'UCSF et co-auteur du nouveau document, a déclaré lors d'un point de presse cette semaine. "Nous essayons explicitement de décoder les mouvements afin de créer des sons, par opposition à un décodage direct des sons."
Un exemple d'implant cérébral d'électrodes intracrâniennes du type utilisé pour enregistrer l'activité cérébrale. (UCSF)En utilisant cette méthode, les chercheurs ont réussi à inverser des mots et des phrases issus de l'activité cérébrale, ce qui correspond approximativement aux enregistrements audio de la parole des participants. Lorsqu'ils ont demandé à des volontaires sur une plate-forme de crowdsourcing en ligne d'essayer d'identifier les mots et de transcrire des phrases à l'aide d'une banque de mots, beaucoup d'entre eux ont pu comprendre le discours simulé, même si leur précision était loin d'être parfaite. Sur les 101 phrases synthétisées, environ 80% ont été parfaitement transcrites par au moins un auditeur utilisant une banque de 25 mots (ce taux est tombé à environ 60% lorsque la taille de la banque de mots a doublé).
Il est difficile de dire comment ces résultats se comparent à d'autres essais de synthèse vocale, déclare Marc Slutzky, un neurologue du Nord-Ouest qui n'a pas participé à la nouvelle étude, dans un courrier électronique. Slutzky a récemment travaillé sur une étude similaire qui produisait des mots synthétisés directement à partir des signaux du cortex cérébral, sans décoder le mouvement des voies vocales, et pensait que la qualité de la parole résultante était similaire - bien que les différences de métriques de performance rendent difficile la comparaison directe.
Cependant, l’un des aspects les plus intéressants de l’étude UCSF est que le décodeur peut généraliser certains résultats entre les participants, explique Slutzky. Un défi majeur pour ce type de recherche est que la formation des algorithmes de décodage nécessite généralement la parole des participants, mais que la technologie est destinée aux patients qui ne peuvent plus parler. Le fait de pouvoir généraliser une partie de la formation de l'algorithme pourrait permettre de poursuivre le travail avec des patients paralysés.
Pour relever ce défi, les chercheurs ont également testé le dispositif auprès d'un participant qui imitait les phrases en silence au lieu de les prononcer à voix haute. Bien que les phrases résultantes ne soient pas aussi précises, les auteurs affirment que le fait de pouvoir synthétiser même sans langage vocal a des implications intéressantes.
"Il était vraiment remarquable de constater que nous pouvions toujours générer un signal audio à partir d'un acte qui ne produisait pas du tout du son", a déclaré Josh Chartier, auteur principal de l'étude et étudiante diplômée en bio-ingénierie à l'UCSF, a déclaré lors d'une conférence de presse .
Image de l’auteur de l’étude, Gopala Anumanchipalli, titulaire d’un doctorat, détenant un exemple d’électrodes intracrâniennes du type utilisé pour enregistrer l’activité cérébrale dans l’étude en cours. (UCSF)Un autre objectif des recherches futures est de poursuivre les démonstrations en temps réel du décodeur, explique Anumanchipalli. L’étude actuelle a été conçue comme une preuve de concept - le décodeur a été développé séparément du processus de collecte de données, et l’équipe n’a pas testé la vitesse en temps réel de la traduction de l’activité cérébrale en discours synthétisé, bien que ce soit l’objectif final de un dispositif clinique.
Jaimie Henderson, un neurochirurgien de Stanford qui n’a pas participé à l’étude, a besoin d’être améliorée pour que cette synthèse en temps réel soit une amélioration. Il ajoute que la méthode en deux étapes des auteurs est une nouvelle approche passionnante et que l’utilisation de technologies d’apprentissage approfondi peut fournir de nouvelles informations sur le fonctionnement réel de la parole.
«Pour moi, l'idée de commencer à étudier les bases sous-jacentes de la manière dont la parole est produite chez les gens est très excitante», a déclaré Henderson. "[Cette étude] commence à explorer l'une de nos capacités les plus humaines à un niveau fondamental."