https://frosthead.com

Comment l'intelligence artificielle pourrait révolutionner la recherche des musées d'archives

Lorsque vous pensez à l'intelligence artificielle, le domaine de la botanique n'est probablement pas au premier plan de vos préoccupations. Lorsque vous décrivez les paramètres d'une recherche informatique de pointe, les musées centenaires risquent de ne pas figurer en tête de liste. Et pourtant, un article qui vient de paraître dans le Biodiversity Data Journal montre que certaines des innovations les plus excitantes et les plus majeures de l’apprentissage automatique se déroulent dans l’herbier national du Muséum national d’histoire naturelle de Washington, DC

Le document, qui démontre que les réseaux de neurones numériques sont capables de distinguer deux familles de plantes similaires avec des taux de précision bien supérieurs à 90%, implique toutes sortes de possibilités alléchantes pour les scientifiques et les universitaires. L’étude repose sur un logiciel reposant sur des algorithmes «d’apprentissage en profondeur», qui permettent aux programmes informatiques d’accumuler de l’expérience de la même manière que les experts, augmentant ainsi la qualité de leur jeu à chaque exécution. Bientôt, cette technologie pourrait permettre des analyses comparatives de millions de spécimens distincts de tous les coins du globe - une proposition qui aurait auparavant exigé une quantité indéfendable de travail humain.

«Cette orientation de la recherche est très prometteuse», déclare Mark Algee-Hewitt, professeur à Stanford, une voix influente dans le mouvement des humanités numériques et directeur adjoint de la faculté au Centre d'analyse spatiale et textuelle de l'université. «Ces méthodes ont la capacité de nous fournir de grandes quantités d’informations sur le contenu des collections», explique-t-il. «Ce faisant, elles rendent ces données accessibles.»

Ces nouvelles découvertes s'appuient sur des années de travail entrepris par la Smithsonian Institution pour numériser systématiquement ses collections en vue de leur permettre l'accès en ligne aux universitaires et au public, et représentent un remarquable ensemble d'idées interdisciplinaires: botanistes, experts en numérisation et spécialistes des données ont tous joué un rôle dans la création de ces ressources. résultats à la lumière.

L'histoire commence en octobre 2015, lorsque l'installation d'un appareil photo-ceinture et d'un tapis roulant sous le musée d'histoire naturelle a considérablement simplifié les efforts de numérisation de la collection botanique du Smithsonian. Au lieu de scanner manuellement chaque fleur pressée et chaque touffe d'herbe de leur dépôt, les travailleurs peuvent désormais mettre en file d'attente des matrices complètes d'échantillons, laisser la bande fonctionner comme par magie, puis la récupérer et la cataloguer à nouveau. Une équipe de trois personnes supervise la ceinture depuis ses débuts et examine environ 750 000 spécimens chaque année. D'ici peu de temps, l'inventaire d'herbier du Smithsonian, fort de cinq millions de spécimens, sera entièrement en ligne.

Chaque spécimen est étiqueté avec une carte d'identification complète, qui fournit des informations sur sa provenance ainsi que des données statistiques essentielles. Le contenu de ces cartes a été transcrit et téléchargé à côté des images numériques, offrant ainsi une vue complète de chaque élément de la collection aux personnes ayant l’intention de rechercher.

Dans les archives botaniques numérisées du Smithsonian, des images haute résolution de spécimens sont associées à des transcriptions des étiquettes d'identification pratiques qui leur sont apposées. Dans les archives botaniques numérisées du Smithsonian, des images haute résolution de spécimens sont associées à des transcriptions des étiquettes d'identification pratiques qui leur sont apposées. (Muséum national d'histoire naturelle)

«Cela rend notre collection accessible à quiconque a un ordinateur et une connexion Internet», explique Laurence Dorr, responsable de la botanique au musée, ce qui est formidable pour répondre à certaines questions. »Malgré tout, Dorr a découvert qu'il ne pouvait pas ébranler un potentiel inexploité. . Certes, des quantités massives de données sur les échantillons étaient maintenant disponibles pour la communauté en ligne, mais leur analyse dans l'ensemble restait fantaisiste. Il était assez facile de rechercher des spécimens particuliers et de petites catégories de spécimens, mais Dorr s'est demandé s'il existait un moyen de tirer parti des données pour tirer des conclusions sur des milliers de spécimens. «Que pouvez-vous faire avec ces données?» Se rappelle-t-il en se demandant. Un homme nommé Adam Metallo a rapidement fourni une réponse convaincante.

Metallo, officier du bureau du programme de numérisation du Smithsonian, avait assisté à une conférence au cours de laquelle le géant de la technologie, NVIDIA - le chouchou des joueurs sur PC - présentait des unités de traitement graphique de nouvelle génération, ou GPU. Metallo cherchait des moyens d'améliorer les capacités de rendu numérique 3D du Smithsonian, mais il s'agissait d'une pépite d'informations sans rapport avec l'autre qui avait attiré son attention et était restée fidèle à lui. En plus de générer des visuels 3D dynamiques haute fidélité, les GPU de NVIDIA étaient parfaitement adaptés à l’analyse de données massives. En particulier, les GPU renforcés étaient exactement ce qui était nécessaire pour une reconnaissance intensive des modèles numériques; de nombreux algorithmes d’apprentissage automatique ont été optimisés pour la plate-forme NVIDIA.

Metallo fut instantanément intrigué. Cette technologie «d'apprentissage en profondeur», déjà déployée dans des secteurs de niche tels que le développement automobile autonome et la radiologie médicale, offrait un potentiel considérable pour le monde des musées - qui, comme le souligne Metallo, constitue «le plus grand et le plus ancien ensemble de données auquel nous avons maintenant accès. à."

«Qu'est-ce que cela signifie pour les grands ensembles de données que nous créons au Smithsonian par le biais de la numérisation?» Metallo voulait savoir. Sa question reflétait parfaitement celle de Laurence Dorr et, une fois que les deux connectés, des étincelles se mirent à voler. «La collection de botanique est l'une des plus grandes collections sur lesquelles nous avons travaillé récemment», se souvient Metallo. Une collaboration s'est suggérée.

Alors que de nombreuses formes d’apprentissage automatique exigent des chercheurs qu’ils identifient des marqueurs mathématiques clés dans les images à analyser (processus fastidieux qui revient à tenir la main de l’ordinateur), les algorithmes d’apprentissage en profondeur modernes peuvent s’apprendre eux-mêmes quels marqueurs rechercher au travail temps et ouvrant la porte à des enquêtes à plus grande échelle. Néanmoins, rédiger un programme d'apprentissage en profondeur spécifique au Smithsonian et l'étalonner pour des questions de recherche botanique discrètes était une tâche délicate - Dorr et Metallo avaient besoin de l'aide de spécialistes des données pour faire de leur vision une réalité.

Les scientifiques de données compilent des échantillons d’entraînement pour le réseau de neurones pendant ce que Paul Frandsen se souvient Les scientifiques de données réunissent des échantillons d’entraînement pour le réseau de neurones pendant ce que Paul Frandsen se souvient de "journée froide de janvier". (Muséum national d'histoire naturelle)

Paul Frandsen, spécialiste des données chez Smithsonian, a immédiatement reconnu le potentiel de la création d’un réseau de neurones alimenté par le GPU NVIDIA pour exploiter la collection de botanique. Pour Frandsen, ce projet a symbolisé une première étape clé dans une voie merveilleuse et inexplorée. Bientôt, dit-il, «nous allons commencer à rechercher des schémas morphologiques à l'échelle mondiale et nous serons en mesure de répondre à ces très grandes questions qui auraient traditionnellement nécessité des milliers, voire des millions d'heures de travail en parcourant la littérature et classer les choses. Nous allons pouvoir utiliser des algorithmes pour nous aider à trouver ces modèles et en apprendre davantage sur le monde. "

Les résultats qui viennent d'être publiés constituent une preuve de concept frappante. Réalisée par une équipe de neuf personnes dirigée par le botaniste chercheur Eric Schuettpelz et les informaticiens Paul Frandsen et Rebecca Dikow, l'étude vise à répondre à deux questions de grande envergure sur l'apprentissage automatique et l'herbier. Le premier est l'efficacité d'un réseau de neurones formés pour le tri des échantillons souillés au mercure des échantillons non souillés. La seconde, le point culminant du document, concerne l’efficacité d’un tel réseau pour différencier les membres de deux familles de plantes superficiellement similaires, à savoir les familles des alliés des fougères, Lycopodiaceae et Selaginellaceae .

Lors du premier essai, l’équipe avait dû passer elle-même à l’avance à des milliers de spécimens, précisant quels étaient ceux qui étaient visiblement contaminés au mercure (vestige de techniques de conservation botanique dépassées). Ils voulaient être certains de savoir avec certitude à 100% ce qui était taché et ce qui ne l'était pas - sinon, il serait impossible d'évaluer l'exactitude du programme. L’équipe a sélectionné près de 8 000 images d’échantillons purs et 8 000 autres échantillons tachés pour l’entraînement et le test de l’ordinateur. Au moment où ils ont fini de peaufiner les paramètres du réseau neuronal et de retirer toute assistance humaine, l'algorithme catégorisait les spécimens qu'il n'avait jamais vus auparavant avec une précision de 90%. Si les spécimens les plus ambigus, par exemple ceux dont la coloration était minime et / ou très faible, étaient rejetés, ce chiffre atteignait 94%.

Ce résultat implique qu'un logiciel d'apprentissage en profondeur pourrait bientôt aider les botanistes et autres scientifiques à éviter de perdre du temps en tâches de tri fastidieuses. «Le problème n’est pas qu’un humain ne puisse pas déterminer si un spécimen est coloré au mercure», précise Metallo, mais plutôt qu’il est «difficile de trier manuellement et de déterminer l’endroit où la contamination existe» Faites-le du point de vue de la gestion du temps. Heureusement, l’apprentissage automatique pourrait transformer une perte de temps importante en une analyse automatisée rapide pouvant aller jusqu’à quelques jours.

Se pencher sur les spécimens un par un demande beaucoup d'énergie et rend difficile la conclusion à grande échelle. À présent, l’analyse des données volumineuses offre aux musées de nouvelles façons d’approcher leurs collections. Se pencher sur les spécimens un par un demande beaucoup d'énergie et rend difficile la conclusion à grande échelle. À présent, l’analyse des données volumineuses offre aux musées de nouvelles façons d’approcher leurs collections. (Arnold Arboretum)

La partie de l’étude sur la discrimination des espèces est encore plus intéressante. Les chercheurs ont formé et testé le réseau de neurones avec environ 9 300 échantillons de clubmoss et 9 100 spikemoss. Comme pour l'expérience de coloration, environ 70% de ces échantillons ont été utilisés pour l'étalonnage initial, 20% pour l'affinement et les 10% finaux ont été utilisés pour évaluer formellement la précision. Une fois le code optimisé, le taux de réussite de l'ordinateur en matière de distinction entre les deux familles était de 96% - et de 99% presque parfait si les échantillons les plus difficiles étaient omis.

Un jour, spécule Frandsen, des programmes comme celui-ci pourraient gérer la catégorisation préliminaire des spécimens dans les musées du monde entier. «En aucun cas, je ne pense que ces algorithmes ne feront rien pour remplacer les conservateurs», remarque-t-il rapidement, «mais au lieu de cela, je pense qu'ils peuvent aider les conservateurs et les personnes impliquées dans la systématique à être plus productifs, afin qu'ils puissent faire leur travail beaucoup plus vite."

Le succès du réseau de neurones dans cette étude ouvre également la voie au test rapide d'hypothèses scientifiques sur des collections volumineuses. Dorr voit dans les conclusions de l'équipe la possibilité de procéder à des comparaisons morphologiques approfondies d'échantillons numérisés, comparaisons qui pourraient conduire à des avancées scientifiques significatives.

Cela ne veut pas dire que l'apprentissage en profondeur sera une solution miracle pour la recherche dans tous les domaines. Mark Algee-Hewitt de Stanford souligne qu '«il est presque impossible de reconstruire pourquoi et comment un réseau de neurones prend ses décisions» une fois qu'il a été conditionné. les déterminations laissées aux programmes informatiques doivent toujours être simples et vérifiables par nature si elles doivent être fiables.

«De toute évidence, dit Dorr, un programme informatique autonome ne« va pas tester les relations génétiques, etc. », du moins à tout moment dans un avenir proche. «Mais nous pouvons commencer à apprendre sur la distribution des caractéristiques par région géographique ou par unité taxonomique. Et ça va être vraiment puissant. "

Plus que tout, cette recherche est un point de départ. Il est maintenant clair que les technologies d’apprentissage en profondeur sont très prometteuses pour les scientifiques et les autres universitaires du monde entier, ainsi que pour le public curieux pour lequel ils produisent des connaissances. Ce qui reste est un travail de suivi rigoureux.

«C'est un petit pas», dit Frandsen, «mais c'est une étape qui nous dit vraiment que ces techniques peuvent fonctionner sur des spécimens de musée numérisés. Nous sommes enthousiastes à l'idée de mettre en place plusieurs autres projets au cours des prochains mois afin d'essayer de tester un peu plus ses limites. ”

Comment l'intelligence artificielle pourrait révolutionner la recherche des musées d'archives