https://frosthead.com

Les données volantes deviennent encore plus grosses alors que le Watson d'IBM rencontre l'encyclopédie de la vie

Après 2 000 ans, l'encyclopédie ultime de la vie est à l'aube d'une nouvelle ère axée sur les données. Une subvention de la National Science Foundation a été attribuée à l'Encyclopedia of Life (EOL), IBM et Georgia Institute of Technology. La subvention permettra de traiter et d'indexer des quantités énormes de données, ce qui permettra de réaliser des travaux scientifiques de pointe.

Contenu connexe

  • Le nouveau système de réserve marine proposé offre des perspectives optimistes pour les pêcheurs de homard et de homard

En l'an 77 de notre ère, Pline l'Ancien a commencé à écrire la première encyclopédie au monde, Histoire naturelle. Cela incluait tout, de l'astronomie à la botanique en passant par la zoologie, l'anthropologie et plus encore. Pline a essayé de mettre tout ce qu'il pouvait personnellement recueillir sur le monde naturel dans un seul travail écrit. Au cours des 2 000 dernières années, une longue succession de scientifiques inspirés par Pline ont poursuivi la même vision.

Pliney comprenait 20 000 sujets dans 36 volumes, mais se heurtait aux limites de ce qu’une personne peut découvrir, enregistrer et traiter au cours d’une vie humaine. Il mourut lors de l'éruption du Vésuve avant de pouvoir terminer le montage final de son magnum opus. Même à son époque, il n'était pas possible pour une personne de lire tous les livres, d'apprendre toutes les choses et de tout expliquer au monde.

Comme les scientifiques, les rédacteurs en chef et les bibliothécaires l'ont découvert plus tard, dans un monde qui ajoute chaque année plus de connaissances écrites, même si vous pouviez stocker tous les livres et toutes les recherches du monde dans un seul bâtiment, il est difficile de mettre toutes les informations pertinentes à la disposition du public. chercheurs pendant les limitations de leurs vies humaines brèves.

EOL pourrait peut-être changer cela en appliquant une puissance de calcul ultramoderne à des collections de données biologiques disparates. Le projet est une collection numérique libre et ouverte de faits, d'articles et de multimédias sur la biodiversité, l'un des plus importants au monde. Basée à la Smithsonian Institution et avec ses 357 partenaires et fournisseurs de contenu, y compris l’Université de Harvard et la nouvelle bibliothèque d’Alexandrie en Égypte, EOL est passée de 30 000 pages lors de son lancement en 2008 à plus de 2 millions, avec 1, 3 million de pages de texte, cartes, vidéo, audio et photographies, et prend en charge 20 langues.

«Je suis arrivé à Smithsonian en 2010 en provenance du secteur des logiciels», a déclaré Bob Corrigan, directeur d'EOL. «L’une des découvertes que j’ai faites ici, c’est que, si l’informatique est omniprésente, elle n’a pas pénétré dans le monde des musées de la même manière qu’elle a pénétré dans le monde commercial. En biologie en particulier, les données les plus importantes ont été enfouies dans des manuels et des tableurs. ”

Comment des données biologiques sous diverses formes peuvent-elles être combinées et exploitées pour obtenir de nouvelles informations sur la vie sur Terre? Et si les données sur, par exemple, la biodiversité des papillons en Afrique sur une décennie étaient combinées avec des données sur les pratiques agricoles et les précipitations? Peut-on apprendre quelque chose de nouveau? Pour ce faire, il faut quelque chose de plus gros qu'un cerveau humain. Quelque chose comme le supercalculateur Watson d'IBM.

«IBM contribue aux efforts et à l'accès à une version [de Watson] qui n'est pas accessible au public», déclare Jennifer Hammock, directrice de programme chez EOL. «Ils vont aussi avoir des gens qui travaillent dessus. IBM le fait en tant que contribution en nature. "

Watson est un supercalculateur qui ne traite pas uniquement les chiffres en grandes quantités. Il utilise l'intelligence artificielle pour permettre aux utilisateurs de poser des questions en langage clair.

«Je dirais, d’un point de vue utilisateur, que cela signifie que la base de données est un outil sur lequel vous pouvez marcher et poser une question comme si vous le feriez d’un humain», déclare Hammock. "Par exemple, peux-tu me dire si ce papillon violet se produit en Afrique?"

«Répondre à une question simple dans n'importe quelle langue présuppose l'existence de nombreuses connaissances dans les coulisses», explique Corrigan. «Même [le mot] violet, cela suppose que nous savons ce que c'est que le violet. Ou un papillon, [l'ordinateur] doit comprendre la différence entre un papillon et un papillon de nuit. En plus de cela, les ensembles de données eux-mêmes ont différentes manières de penser ces différents termes. Toutes ces données ont été difficiles à exploiter sans une pierre de termes de Rosetta. Et cela fait partie de la magie de ce que fait EOL. "

Une question scientifique que le partenariat entre EOL, IBM et Georgia Tech espère résoudre est le paradoxe du plancton.

Selon M. Hammock, des scientifiques travaillant sur des simulations informatiques «tentent de modéliser ce qui se passe dans l'océan en disant que le soleil brille et que les algues se développent. . . Il s'agit d'une approximation approximative, mais ils ne peuvent pas obtenir [le modèle informatique de l'écosystème] stable. Ils y vont pendant un moment puis ils se plantent. Parce qu'ils sont trop simples. Ils espèrent que s’ils peuvent montrer un peu plus de diversité dans leur biosphère modélisée, ils deviendront plus stables. . . .le paradoxe: comment existe la biosphère océanique? Pourquoi ça ne plante pas?

«Les gens sont assis sur des données», dit Corrigan. «Il existe d'incroyables réservoirs de mesures de la biodiversité sur toute la planète. Je reçois beaucoup d'appels téléphoniques de personnes qui sont assises sur ces données et veulent de l'aide pour les replacer dans un contexte plus large. C'est important parce que nous sommes dans une course pour étudier cette planète et apprendre comment notre développement met à l'épreuve nos ressources très limitées. . . Le Smithsonian peut jouer un rôle dans l'accroissement des connaissances provenant de toutes ces sources et constituer un réel pouvoir de diffusion. ”

Un quart de la subvention d'un million de dollars sera attribué à Smithsonian pour sa part du travail, mais EOL inclut beaucoup d'autres joueurs. Certains développeurs sont en Egypte; une équipe d'éducation est basée à Harvard; et l'unité de langue espagnole est à Mexico.

Toutes les données d'EOL continueront à appartenir au domaine public ou à une licence sous Creative Commons. La recherche et les données sont destinées à être accessibles au public et non cachées derrière un paywall.

«C'est un très vieux rêve», déclare Hammock. «Un humain ne peut probablement pas tout apprendre. Il est difficile de tout mettre dans un endroit où il peut être consciemment vérifié. Mais maintenant nous avons des ordinateurs.

Pline serait soit très content, soit très jaloux.

Les données volantes deviennent encore plus grosses alors que le Watson d'IBM rencontre l'encyclopédie de la vie