Comment l’IA traduit le langage des neurones

Grâce aux progrès de la neuro-imagerie couplés à la puissance des nouveaux algorithmes, les chercheurs parviennent à analyser les ondes cérébrales d’une personne pour reconstruire les mots qu’elle entend ou les images qu’elle voit. Fascinant.

images restituées par trois algorithmes différents

Les images (première ligne horizontale) regardées par des volontaires placés dans un appareil d’IRM sont restituées par trois algorithmes différents (lignes 2 à 4) à partir des données de neuro-imagerie enregistrées pendant leur visionnage.

SHEN G, HORIKAWA T, MAJIMA K, KAMITANI Y (2019). PLOS COMPUT BIOL 15(1)

Cet article est extrait du mensuel Sciences et Avenir – La Recherche n°910, daté décembre 2022.

La chose est à peine croyable, mais il est aujourd’hui possible, presque littéralement, de lire dans les pensées. Pour être précis, on dira plutôt « décoder des contenus cognitifs dans le cerveau « , mais les résultats sont là : images, mots lus ou entendus, mouvements, émotions même… Dans le cerveau, tout commence à se voir, jusqu’aux sentiments intimes, grâce aux progrès de la neuro-imagerie couplés à des puissances de calcul décuplées ces dernières années.

« L’idée, c’est qu’à n’importe quelle activité cognitive correspond une certaine configuration d’activation du cerveau, pose Bertrand Thirion, chercheur de l’équipe Mind à l’Institut national de recherche en sciences et technologies du numérique (Inria). Or, si l’on peut observer l’activité de votre cerveau, on peut faire le chemin en sens inverse et dire quelle est l’activité cognitive correspondant à telle activation neuronale ; et ainsi, reconstruire une image que vous voyez, ou que vous imaginez, ou encore des phrases avec certaines sémantiques.« 

Reconstituer les mots qu’une personne entend « dans sa tête »

Cet article est extrait du mensuel Sciences et Avenir – La Recherche n°910, daté décembre 2022.

La chose est à peine croyable, mais il est aujourd’hui possible, presque littéralement, de lire dans les pensées. Pour être précis, on dira plutôt « décoder des contenus cognitifs dans le cerveau « , mais les résultats sont là : images, mots lus ou entendus, mouvements, émotions même… Dans le cerveau, tout commence à se voir, jusqu’aux sentiments intimes, grâce aux progrès de la neuro-imagerie couplés à des puissances de calcul décuplées ces dernières années.

« L’idée, c’est qu’à n’importe quelle activité cognitive correspond une certaine configuration d’activation du cerveau, pose Bertrand Thirion, chercheur de l’équipe Mind à l’Institut national de recherche en sciences et technologies du numérique (Inria). Or, si l’on peut observer l’activité de votre cerveau, on peut faire le chemin en sens inverse et dire quelle est l’activité cognitive correspondant à telle activation neuronale ; et ainsi, reconstruire une image que vous voyez, ou que vous imaginez, ou encore des phrases avec certaines sémantiques.« 

Reconstituer les mots qu’une personne entend « dans sa tête »

Analyser les ondes électromagnétiques cérébrales d’une personne pour reconstruire les mots qu’elle entend « dans sa tête », c’est précisément ce qu’a fait une équipe française du laboratoire européen Meta AI Research (ex-Facebook), de l’Inria et des universités Paris-Saclay et Paris Sciences & Lettres.

L’étude publiée dans Scientific Reports cet automne a de quoi impressionner : les données d’ondes cérébrales de 169 sujets, captées pendant qu’ils écoutaient des enregistrements de personnes en train de parler, ont été découpées par séquences de trois secondes. Ces séquences d’ondes cérébrales ont été transmises à une IA en même temps que les fichiers sonores correspondants pour qu’elle apprenne à repérer les motifs d’activité cérébrale correspondant aux mots.

Si la démonstration est frappante, la précision de l’algorithme est encore trop faible pour envisager des applications à court terme : pour chaque enregistrement cérébral, l’intelligence artificielle (IA) a prédit une liste de 10 mots, et 73 % du temps, cette liste comprenait le mot effectivement prononcé. Peut mieux faire donc… ou pas, la résolution de la neuro-imagerie a ses limites.

Pour ce qui est des images, Bertrand Thirion avait dès 2006, avec Stanislas Dehaene, expert en neurosciences cognitives, cartographié une correspondance entre les points du cortex des aires visuelles et les coordonnées rétiniennes dans l’œil. De sorte qu’en regardant les points du cortex activés, il était possible de reconstituer des images simples – des lettres notamment – correspondant à l’empreinte neuronale de la rétine dans les aires visuelles. Depuis, l’intelligence artificielle s’en est mêlée, permettant de se servir non plus seulement de la rétine, mais de toutes les aires activées dans le cerveau.

En 2019, une équipe de l’Université de Kyoto (Japon) faisait sensation avec des reconstructions du contenu perceptif du cerveau des patients à partir des données récoltées grâce à l’imagerie par résonance magnétique dite fonctionnelle (IRMf). Cette application de l’IRM classique permet de suivre presque en direct l’activité cérébrale. Presque, car ce que suit l’IRMf en réalité, ce sont les variations du flux sanguin dans les vaisseaux du cerveau.

En l’occurrence, le principe est simple : des volontaires placés dans l’appareil d’IRM se concentrent sur des images qui leur sont montrées quelques secondes (un cygne, un léopard, un vitrail, un avion…), les scientifiques analysent les données d’imagerie et un algorithme d’intelligence artificielle tente de restituer les formes et couleurs de l’image en question. « Ce qu’il y a de nouveau ces dernières années, c’est qu’on a des modèles génératifs plus puissants pour créer du texte et des images de plus en plus réalistes « , précise Bertrand Thirion.

Ces programmes ont appris, sur de vastes bases de données, à générer automatiquement des images ou des textes inédits à partir de critères définis par le texte, ou, en l’occurrence, des données de neuro-imagerie ; le plus souvent grâce à l’IRMf ou la magnéto-encéphalographie (MEG), voire par le biais d’implants cérébraux. Encore faut-il savoir analyser finement l’activité des différents réseaux de neurones qui participent à la perception « mentale ».

Autre expérience saisissante de ce point de vue : celle publiée dans Scientific Reports par des neuroscientifiques de l’Université Radboud (Pays-Bas) au tout début de cette année. Eux sont parvenus à reconstruire des visages avec un réalisme stupéfiant à partir, encore, des motifs d’activation neuronale imagés par l’IRMf pendant que des volontaires regardaient des photos de visages.

« Ce sont les reconstructions de la perception des visages les plus précises à ce jour, se réjouit Thirza Dado, première auteure de l’étude. Mais compte tenu de la rapidité des progrès de la modélisation générative, nous nous attendons à des reconstructions encore plus impressionnantes de la perception, et peut-être même de l’imagerie mentale dans unavenir proche. À l’avenir, nous pourrons décoder et recréer des expériences subjectives, peut-être même nos rêves. Ces techniques auront aussi des applications cliniques, pour la communication avec des patients paralysés ou en état de conscience minimale notamment. Ici, nous développons des caméras à implant cérébral qui stimulerontle cerveau pour tenter de rendre la vue aux aveugles. « 

À partir d'IRM de l'activité neuronale de deux volontaires regardant des photos de visages (ligne 1), une IA a reconstruit avec un réalisme stupéfiant ces visages (lignes 2 et 3). Crédit : THIRZA DADO ET AL. NATURE 2022

À partir d’IRM de l’activité neuronale de deux volontaires regardant des photos de visages (ligne 1), une IA a reconstruit avec un réalisme stupéfiant ces visages (lignes 2 et 3). Crédits : THIRZA DADO ET AL. NATURE 2022

La connaissance progresse, et les algorithmes ne font pas tout. Pour reconstituer ces visages, encore faut-il savoir que leur encodage neuronal avec leurs caractéristiques fines se fait dans une zone spécialisée du système visuel affectée à leur reconnaissance. Les paramètres précis sont encodés dans cette zone : forme du visage, couleur de la peau et des cheveux, orientation de la tête, illumination, port ou non de lunettes, face imberbe ou poilue, etc. C’est cela que compile et analyse l’IA pour générer ces visages.

« C’est ce que j’appelle une reconstruction sur un mode hallucinatoire, commente Bertrand Thirion. C’est comme si on construisait une hallucination parfaite, car l’image reconstruite n’est pas exactement ce que vous avez vu à ce moment-là, mais va ressembler aux caractéristiques attribuées dans le cerveau au visage vu : féminin, avec des cheveux longs, plus ou moins jeune, etc. Plusieurs dimensions vont aiguiller le modèle génératif.  » Mais, aussi précis et graphique que soit le visage restitué par l’IA, il sera toujours légèrement faux. « On hallucine en quelque sorte l’expérience psychologique de la personne à partir de son imagerie cérébrale « , explique le chercheur.

« Le code neural est très mélangé dans le cerveau », Stanislas Dehaene, professeur au Collège de France*

« Lire dans les pensées ? Nombre de résultats très impressionnants ont été publiés ces dernières années. Mais il ne faut pas surestimer ce qu’on est capable de faire. Les expériences sont menées sur des personnes volontaires, concentrées, qui acceptent de rester focalisées sur une image ou une pensée. Je ne crois pas beaucoup au fait qu’on parvienne avec des méthodes d’imagerie non invasives comme l’IRM ou la MEG à atteindre une sophistication à même de déchiffrer parfaitement le code neural.

De façon générale, celui-ci est très mélangé, et plus on cherche des informations fines sur la cognition et la psychologie, plus c’est mélangé. C’est-à-dire que les groupes de neurones sont de plus en plus petits et distribués dans le cerveau. Mais en admettant qu’on perfectionne ces techniques au point qu’elles puissent décoder à la demande le contenu cognitif d’une personne, cela engagera des questions d’éthique sérieuses, et pour tout dire très compliquées ».

*Titulaire de la chaire Psychologie cognitive expérimentale. Il est également responsable de l’unité de recherche en neuro-imagerie cognitive au NeuroSpin de Paris-Saclay.

50 tâches cognitives cartographiées et décodables

Aussi impressionnantes que soient ces expériences, elles ne servent in fine qu’à valider les connaissances acquises, confirmant par une mesure objective ce que les scientifiques ont réussi à déchiffrer dans l’activité cérébrale. L’objectif est bien de comprendre comment œuvrent les fonctions cognitives distribuées dans le cerveau. Or, ces expériences se concentrent sur des tâches très particulières.

C’est pourquoi l’équipe Inria-CEA Mind et le centre NeuroSpin en France se focalisent désormais sur un défi à la fois plus basique et plus complexe : « Apprendre à deviner ce que fait un sujet à un instant T, sans rien présupposer, à partir des données d’imagerie seules « , résume Bertrand Thirion. Avec son équipe, le chercheur a publié en avril dans Scientific Reports un recensement de 50 tâches cognitives cartographiées et décodables : mouvements des orteils et des doigts, à gauche ou à droite, reconnaissance des visages mais aussi des émotions faciales, calcul mental, prise de décision, reconnaissance des phrases, compréhension d’une histoire…

« On a démontré pour la première fois qu’un décodage totalement ouvert, qui n’anticipe aucune activité précise, permet de deviner à peu près ce que la personne fait, mentalement ou effectivement, parmi ces 50 activités cognitives.  » Pour troublante qu’elle soit, cette compréhension de plus en plus fine de l’activité cérébrale ouvre la voie à des applications qu’on peine encore à concevoir. Tant que les finalités resteront strictement scientifiques ou médicales, tout ira bien. Mais la perspective de technologies capable de percer à jour le contenu conscient d’un cerveau et, grâce à des implants, de le modifier a de quoi fasciner autant qu’inquiéter.

À la recherche de la neuro-imagerie parfaite

Pour s’approcher au plus près des neurones en activité, les scientifiques disposent de deux techniques non invasives : l’IRM fonctionnelle, qui possède une résolution spatiale de l’ordre du millimètre, permettant un découpage fin du cerveau en environ un million de points ou voxels (pixels 3D). En revanche, l’activité des neurones étant captée indirectement, l’information est enregistrée en léger différé, à deux ou trois secondes près. Cela convient quand une personne est exposée à une image fixe, mais pas pour les transitions rapides qu’implique par exemple la compréhension d’un langage.

C’est là que la magnéto-encéphalographie (MEG) devient pertinente, car en se concentrant sur les ondes électromagnétiques émises par les neurones, elle permet d’enregistrer ce qui se passe à la milliseconde près. En revanche, le signal électrique capté par les électrodes sur le cuir chevelu étant déformé par la boîte crânienne, la résolution spatiale est de l’ordre du centimètre.

Pour obtenir à la fois une résolution au millimètre et une captation du signal à la milliseconde, restent les électrodes implantées dans le cerveau, notamment chez les épileptiques équipés contre les crises. Mais, alors, seule une petite région est enregistrée et la vue globale du cerveau est perdue. En théorie, pour déchiffrer parfaitement ce code neural, il faudrait disposer d’une technique captant l’ensemble du cerveau tout en ayant une résolution au neurone près et un délai d’acquisition de l’image de l’ordre de la milliseconde ; quasiment un jumeau numérique en 4D évolutif.

À moins de découper le cerveau en tranche pour utiliser la microscopie, il est encore impossible d’atteindre une telle résolution. Et quand bien même, avec environ 100 milliards de neurones dans un cerveau, la quantité d’informations serait probablement ingérable.

Source: Sciencesetavenir.fr
laissez un commentaire