“DALL-E”, le nouvel artiste IA capable de tout dessiner

Une loutre de mer dans le style de “Girl with a Pearl Earring” de Johannes Vermeer, une image générée par DALL-E (toutes les images avec l’aimable autorisation d’OpenAI)

Avez-vous déjà eu une belle vision mais n’aviez pas les compétences en dessin pour la mettre sur papier ? Un nouveau système d’intelligence artificielle (IA) en pré-version d’OpenAI a déverrouillé l’artiste dans la machine. DALL-Ecomme on appelle la technologie, peut convertir de simples invites textuelles en illustrations numériques dans un éventail de styles, du pictural au photoréaliste — comme une loutre de mer inspirée de la « Jeune fille à la perle » de Johannes Vermeer (1665), ou des ours en peluche faisant leurs courses dans le style des estampes japonaises Ukiyo-e.

OpenAI a introduit pour la première fois DALL-E, nommé avec des clins d’œil au protagoniste robot attachant du film Pixar de 2008 WALL-E et le peintre surréaliste Salvador Dalí, en janvier 2021 et travaille depuis à affiner le système. DALL-E 2, la version la plus récente, rend les images dans une résolution plus élevée basée sur une meilleure compréhension des invites. Il a également la fonctionnalité supplémentaire de «in-painting», qui permet à un utilisateur d’échanger un aspect d’une photographie contre un autre – par exemple, remplacer de manière transparente un chien assis sur une chaise par un chat, comme le montre un vidéo d’introduction publié par la société ce mois-ci. De plus, DALL-E peut analyser une image existante et présenter un éventail de variations avec différents angles, styles et coloris.

DALL-E a généré cette image après l’invite “les ours en peluche ukiyo-e font leurs courses”.

DALL-E exploite un modèle en deux étapes, générant d’abord en interne une image “CLIP” qui correspond au texte basé sur l’apprentissage automatique en profondeur qui lui a appris à identifier et à corréler le texte avec des images, puis en utilisant un “décodeur” qui génère un image pour répondre aux conditions décrites.

“Nous montrons que la génération explicite de représentations d’images améliore la diversité des images avec une perte minimale de photoréalisme et de similitude des légendes”, a déclaré un OpenAI. document de recherche, publié sur le site DALL-E 2. “Nos décodeurs conditionnés sur les représentations d’images peuvent également produire des variations d’une image qui préservent à la fois sa sémantique et son style, tout en faisant varier les détails non essentiels absents de la représentation de l’image.”

Image générée par DALL-E pour l’invite “un bol de soupe qui ressemble à un monstre, tricoté en laine”

En termes non cliniques, si vous voulez voir “Un bol de soupe qui ressemble à un monstre, tricoté en laine”, eh bien, maintenant vous le pouvez. “Un palmier avec un arbre qui pousse dessus” – Pourquoi pas? Ceux-ci et bien d’autres sont disponibles sur Instagram de DALL-Eoù vous pouvez décider par vous-même s’il s’agit de la prochaine grande tendance artistique (bien que, malheureusement, vous ne puissiez pas acheter cette loutre de mer à la Vermeer en tant qu’affiche) et les DM avec des idées pour la génération d’images.

Image générée par DALL-E, une licorne faisant du karaté dans le style d’une belle tapisserie, à la demande de l’auteur et inspirée par »La Licorne se défend» (1495-1505)

Comme nous tous, DALL-E est encore en train d’apprendre et a certaines limites. Certains d’entre eux sont des défauts dans le pool de données – par exemple, des images mal étiquetées qui reviennent à enseigner à l’IA le mauvais mot pour quelque chose, ce qui pourrait alors affecter sa sortie. D’autres sont des restrictions imposées sur les capacités du logiciel, qui comprennent un politique de contenu qui interdit les symboles haineux, le harcèlement, la violence, l’automutilation, le contenu classé X, les activités choquantes ou illégales, la tromperie, la propagande politique ou les images de mécanismes de vote, le spam et la santé publique.

Le logiciel, par exemple, n’a pas complètement compris les implications historiques de l’art de la demande d’Hyperallergic pour “” The Scream “sur des montagnes russes”, ou “une photo d’un chien ballon de Jeff Koons se faisant sauter avec une épingle dans l’espace”, mais les images sont assez satisfaisantes néanmoins.

Actuellement, OpenAI surveille étroitement sa technologie, générant des images sur demande mais ne lui permettant pas une utilisation ouverte en dehors de l’entreprise. Ils ne généreront pas non plus d’images de personnes réelles, ce qui signifie que les photos de mon mariage de bon goût sur la plage avec Channing Tatum sont ENCORE en attente.

Cela pointe vers un écueil des images générées par l’IA, et que l’entreprise s’apprête apparemment à résoudre : la création de fausses images réalistes présente un nouveau contrefort potentiel pour les fausses nouvelles, un mouvement qui a déjà conduit à une déstabilisation géopolitique. et une crise mondiale de santé publique au cours des dernières décennies. C’est tout le plaisir et les jeux lorsque vous générez “robot jouant aux échecs» dans le style de Matisse, mais déposer des images générées par des machines sur un public qui semble moins capable que jamais de distinguer la réalité de la fiction semble être une tendance dangereuse.

De plus, le réseau de neurones de DALL-E peut produire des images sexistes et racistes, un problème récurrent avec la technologie IA. Par exemple, journaliste chez Vice a constaté que les invites contenant des termes de recherche tels que “PDG” généraient exclusivement des images d’hommes blancs en tenue professionnelle. L’entreprise reconnaît que DALL-E “hérite de divers biais de ses données de formation, et ses sorties renforcent parfois les stéréotypes sociétaux”.

De son côté, OpenAI contrôle toujours la technologie et exige que l’utilisation de leurs images inclue la divulgation de leur statut comme généré par l’IA, ainsi que l’inclusion d’un petit logo de barre de couleur dans le coin inférieur droit de toutes les images. – mais la capacité à appliquer de telles mesures semble difficile à maintenir si leur produit est finalement ouvert à une utilisation à l’échelle de l’ensemble de l’internet.

Pour l’instant, nous sommes dans cette partie pleine d’espoir et ludique du développement technologique, où nous nous émerveillons devant la nature merveilleuse de notre propre invention. Comme le dit le proverbe, la route de la singularité est pavée de « Loutre à la perle ».

Leave a Comment