https://frosthead.com

Le logiciel crée une image qui dit tout

Chaque jour, les utilisateurs téléchargent plus de 350 millions de photos sur Facebook. Cet afflux d'images a conduit les analystes à estimer que 10% des 3 500 milliards de photos prises dans le monde ont été prises au cours de la dernière année. Toutes ces données inondant le Web signifient que si vous recherchez une image ou un objet particulier (par exemple, à quoi ressemble un chat tabby orange), vous êtes inondé de résultats de recherche.

Le mois dernier, des chercheurs de l'Université de Californie à Berkeley ont dévoilé le nouveau logiciel, AverageExplorer, qui permettra aux utilisateurs de voir l'image «moyenne» qui correspond à ce qu'ils recherchent. Plutôt qu'une image valant mille mots, c'est une image valant mille, voire plus.

«Lorsque vous lancez une recherche d'images dans Google, vous parcourez des pages et des pages d'images», explique Jun-Yan Zhu, étudiante diplômée de l'Université de Berkeley et auteur principal de l'article, présentée à la Conférence et exposition internationale sur les images de synthèse de cette année. et techniques interactives à Vancouver. “C'est énorme et difficile à résumer; vous ne pouvez pas avoir une idée de ce qui se passe. "

Pour son offre initiale, Zhu et son équipe ont collecté des photographies au moyen de recherches d'images Flickr, Google et Bing. Le logiciel est suffisamment faible en énergie pour s'exécuter sur un ordinateur de bureau moyen et peut traiter environ 10 000 images simultanément.

Les utilisateurs affinent leurs recherches de deux manières différentes. Ils peuvent esquisser et colorer une forme, comme le dessin dans Adobe Photoshop ou Illustrator, pour affiner leur résultat moyen. Par exemple, la coloration de l'arrière-plan d'une image moyenne de la Tour Eiffel permet de sélectionner elle-même l'image moyenne pour ne prendre que des photos prises de nuit. Vous pouvez également tracer des lignes inclinées pour contrôler l’orientation d’un papillon dans le composite.

Pont des Soupirs, du jour au soir En affinant les couleurs d'une image AverageExplorer du Bridge of Sighs, vous pouvez modifier la scène du jour au crépuscule en passant par la nuit. (Courtoisie UC Berkeley)

Une fois qu'une image moyenne est créée, processus pouvant prendre jusqu'à une minute, les utilisateurs peuvent affiner le résultat à l'aide de ce que l'équipe appelle le mode Explorateur. Dans ce mode, cliquer sur une certaine partie d'une image, par exemple le nez d'un chat, révélera d'autres options ou améliorations communes pour cet endroit, par exemple des nez bleus ou noirs, ou arrondis au lieu d'angles. Dans une vidéo de démonstration, par exemple, l'équipe a affiné une image des enfants sur les genoux du père Noël en sélectionnant uniquement les images dans lesquelles le père Noël a un enfant par bras.

Selon M. Zhu, le système deviendra particulièrement puissant, car il servira d’outil pour la formation d’algorithmes de vision par ordinateur, tels que ceux utilisés par Google Goggles ou les applications Amazon Firefly, qui permettent d’identifier les objectifs d’une caméra. "Dans le domaine de la vision par ordinateur, les gens dépensent beaucoup d'argent pour annoter des objets", explique-t-il. “Maintenant, vous pouvez appliquer l'annotation à l'image moyenne. L'idée est que vous ne devez travailler que sur une image pour propager toutes les images d'un jeu de données. ”

Trouver des races de chat En affinant les modes de résultats de recherche, les chercheurs peuvent trouver des races de chats spécifiques, notamment (de gauche à droite), Ragdoll, Siamese, Maine Coon et Sphinx. (Courtoisie UC Berkeley)

La création d'œuvres d'art est le fruit à portée de main de AverageExplorer. L'équipe s'est inspirée d'artistes des nouveaux médias, comme Jason Salavon, qui a minutieusement créé à la main des photographies moyennées. Il pourrait également être utilisé pour créer un plug-in Facebook permettant aux utilisateurs de bricoler leur image moyenne.

Les aspirations des chercheurs sont encore plus larges et percutantes. Les sociologues pourraient utiliser le système pour détecter et étudier les tendances sociales; Par exemple, une image moyenne pourrait prouver que les mariées se tiennent le plus souvent à droite du marié dans les portraits de mariage. AverageExplorer pourrait également être un outil utile pour les analystes des médias qui tentent de disséquer la couverture télévisée: la posture de Stephen Colbert change-t-elle quand il parle de George W. Bush par rapport à Barack Obama?

En permettant aux utilisateurs d'interagir intuitivement avec les données visuelles au lieu de lutter pour entrer la chaîne de mots-clés correcte, les utilisateurs seront en mesure de faire le lien entre ce que le conseiller de Zhu et le co-créateur de AverageExplorer, Alexei Efros, appelle le «goulot d'étranglement linguistique».

L'équipe imagine une suite d'outils personnalisés conçus pour des tâches spécifiques difficiles à articuler. Une application de magasinage, par exemple, permettrait à un utilisateur de faire une toile sur le Web pour obtenir une paire de talons avec la couleur exacte, la forme et la hauteur du talon recherchées. Zhu envisage un outil qui s'intègre au flux de travail des artistes des esquisses de la police, permettant ainsi à un témoin de rechercher dans les bases de données faciales des caractéristiques qui correspondent à celles de l'auteur et de construire un portrait composite.

Une version de base de AverageExplorer sera publiée cet automne.

Le logiciel crée une image qui dit tout