On a testé… le créateur d’images par intelligence artificielle gratuit proposé par Microsoft

C’est la première intelligence artificielle (IA) capable de générer des images convaincantes qui soit à la fois simple d’usage et gratuite. Le programme DALL-E 3, fourni par OpenAI et proposé par Microsoft sous le nom Créateur d’image, est accessible depuis le 3 octobre aux personnes disposant d’un compte Microsoft.

Générer une image demande une vingtaine de secondes d’attente. Un temps qui s’accroît exponentiellement lorsqu’on dépasse un seuil de quinze images par semaine. Pour vous aider à prendre la mesure de l’utilité – ou non – de cet outil étonnant, voici un résumé de ce que l’on peut faire, étape par étape, mais aussi des images qu’il refusera de générer.

Dans Créateur d’image de Microsoft, DALL-E 3 refuse de créer le moindre visuel qui fasse référence au plasticien Maurits Cornelis Escher.

Ce qui est possible

• Imaginer tout type de personnage. Vous pouvez demander à l’IA de créer un animal, un robot, un humain, voire une chimère mêlant tout cela à la fois. Pour ce faire, il suffit de décrire ce personnage dans un français clair, en employant des mots précis. C’est ce qu’on appelle rédiger un prompt, qu’on peut traduire par « consigne ». Par exemple : « Un chat de gouttière noir un peu gros. »

Image obtenue avec la consigne « un chat de gouttière noir un peu gros » soumise à DALL-E 3.

Si vous le souhaitez, vous pouvez choisir la posture du personnage, puis définir un cadrage (plan large, plan serré, etc.). Par exemple : « Plan poitrine d’une dame de 75 ans élégante, aux yeux vifs et déterminés, portant une robe géométrique. »

Prompt soumis à DALL-E 3 : « Plan poitrine d’une dame de 75 ans élégante, aux yeux vifs et déterminés, portant une robe géométrique. »

• Imaginer tout type de décor. Vous pouvez choisir de placer votre image dans une ville existante, ou dans les paysages d’une région particulière, pourvu qu’elles aient une certaine notoriété. Par exemple : « L’opéra d’Oslo enneigé vu depuis la mer glacée. » Il faudra cependant probablement plusieurs tentatives pour obtenir une image proche de ce que vous aviez imaginé.

Consigne soumise à DALL-E 3 : « L’opéra d’Oslo enneigé vu depuis la mer glacée. »

Vous pouvez aussi imaginer un décor complètement fantasmé. Comme celui-ci : « Au premier plan, une piscine en forme d’étoile au fond blanc cassé, protégée par une bulle de verre, au second plan une vue de l’espace avec un soleil qui occupe le haut de l’image. »

Prompt soumis à DALL-E 3 : « Au premier plan, une piscine en forme d’étoile au fond blanc cassé protégée par une bulle de verre, au second plan une vue de l’espace avec un soleil qui occupe le haut de l’image. »

Notez toutefois que votre imagination sera occasionnellement bridée par DALL-E 3, qui a tendance à refuser certains prompts pour des raisons impénétrables. Nous n’avons, par exemple, été autorisés à générer l’image suivante qu’après avoir remplacé le mot « rocher » par « roc ».

Consigne soumise à DALL-E 3 : « Un canapé moderne confortable au milieu des gros rocs de la forêt de Fontainebleau. »

Vous pouvez bien sûr préférer un décor intérieur. Et si vous le souhaitez, y inviter un personnage créé plus tôt : « Un chat de gouttière noir un peu gros dans la grotte de glace du mont Blanc. »

Prompt soumis à DALL-E 3 : « Un chat de gouttière noir un peu gros dans la grotte de glace du mont Blanc. »

• Choisir un style. Commencez par choisir un art : la photographie, la peinture ou la bande dessinée. Vous pouvez être plus précis et citer un mouvement artistique, ou même un artiste en particulier, iconique de préférence, sans quoi le résultat sera rarement convaincant. Un fameux peintre néerlandais, par exemple. Notez toutefois que l’IA refuse de pasticher certains artistes contemporains.

Consigne soumise à DALL-E 3 : « Un chat de gouttière noir un peu gros dans la grotte de glace du mont Blanc dans le style de Van Gogh. »

Vous pouvez être encore plus précis en choisissant une technique artistique. Par exemple pour une photo, vous pouvez demander que l’image respecte l’esthétique d’un appareil photo moyen format, carré et argentique et préciser que les éclairages sont placés sur les côtés du sujet, pour mettre en évidence les reliefs :

Prompt soumis à DALL-E 3 : « Un chat de gouttière noir un peu gros dans la grotte de glace du mont Blanc photographié au moyen format argentique noir et blanc avec la lumière rasante de projecteurs latéraux. »

• Imaginer une mise en scène improbable. DALL-E 3 n’a pas vocation à produire uniquement des images réalistes. Vous pouvez l’utiliser pour créer des scènes grotesques, absurdes ou contraires aux lois de la physique : laissez parler votre imagination.

Consigne soumise à DALL-E 3 : « Un chat noir en lévitation au-dessus d’une coulée de lave dans une posture de yogi. »

Ce qui ne fonctionne pas

• Mettre en scène une célébrité contemporaine. L’IA refuse de créer des images qui en comportent. On peut tenter de se rapprocher du physique d’un acteur en le décrivant de manière très précise, mais les résultats sont généralement décevants. En revanche, on peut souvent convoquer dans une image un personnage historique, tel Salvador Dali, et le mettre en scène de façon fantasque, en le faisant danser avec la mort par exemple. La ressemblance avec le peintre est frappante, mais c’est cependant loin d’être toujours le cas.

Prompt soumis à DALL-E 3 : « Photo de Salvador Dali, avec sa moustache immense, qui danse avec la mort. »

• Créer des images sexuellement explicites. Créateur d’image de Microsoft refuse de générer des images mettant en scène des actes sexuels. Et s’il accepte occasionnellement des requêtes de personnages nus, il les génère finalement avec des habits. Des internautes ont entrepris de lister les mots précis bannis par Microsoft, mais ceux-ci paraissent varier dans le temps. Tenter de contourner ces limitations peut avoir un impact sur votre compte car un message menaçant s’affiche à chaque requête jugée problématique : « D’autres violations de stratégie peuvent entraîner la suspension automatique de votre accès. »

• Créer des images violentes. Dans sa page sur sa politique de contenu, Microsoft insiste particulièrement sur les images faisant l’apologie du suicide, sur la violence graphique et les éléments macabres, ainsi que sur les visuels évoquant le terrorisme ou l’extrémisme violent. « Nous interdisons l’utilisation du Créateur d’image pour produire du contenu prônant la violence envers les autres », précise Microsoft. En outre, Créateur d’image refuse de générer certains décors, comme la base américaine de Guantanamo.

• Transformer une image existante. Contrairement à certaines IA concurrentes, Créateur d’image n’est pas capable d’importer une image pour la transformer selon nos indications. En outre, il n’est pas capable de décrire un contenu graphique existant en le résumant dans un prompt, ce que permettent des IA concurrentes. Or cette fonction permet de mieux comprendre la façon dont les IA lisent les images ainsi que de regénérer des visuels s’approchant de l’original, en y apportant des variations.

Nicolas Six

source