Comment la mise à niveau du modèle d’image de Gemini performe-t-elle?


André Boily
Gratuit ou pour une fraction du prix, le nouvel éditeur d’images de Google est si avancé qu’il menace des spécialistes de logiciels photo.
Après la sortie du nouvel outil d’édition IA d’images de Google, les attentes élevées semblent avoir été comblées selon plusieurs tests réalisés cette semaine par des dizaines de sites spécialisés en technologies.
Très bon pour améliorer des images existantes
Si vous voulez simplement retoucher des photos existantes, l’éditeur IA Gemini performe très bien. Et, rappelons-le, à l’aide de simple commande textuelle en langage naturel.
Dans cet exemple réalisé par BusinessInsider, le testeur Hugh Langley qui a fait retoucher sa propre photo déclare que l’éditeur Gemini est particulièrement performant pour apporter de petites modifications. Exemple, il a fait ajouter des lunettes à son visage et changer les couleurs de son t-shirt en rouge. « Si plusieurs autres outils d'IA ont correctement reproduit les lunettes et la couleur, celui de Google a été le seul à conserver le motif rayé du t-shirt. Il a également été l'un des plus nets. »

Encore plus étonnant, de simples photos de deux personnes avec lesquelles on demande à Gemini de générer une photo de ces dernières sur un bateau banane. Si Gemini a fort bien réussi, il a curieusement ajouté un troisième individu en motomarine à l’arrière, lequel fut tout simplement effacé après une seconde requête à Gemini.

Hormis quelques détails comme des dents trop blanches et une silhouette amincie, les « résultats sont impressionnants ».

Combler l’écart avec le générateur d’images ChatGPT-4o
Le lancement du modèle d'image amélioré de Gemini intervient à un moment où les modèles d'images par IA sont devenus un champ de bataille crucial pour les grandes entreprises technologiques. L'introduction par OpenAI du générateur d'images natif GPT-4o au début de l'année a entraîné une forte augmentation de l'utilisation de ChatGPT.
En réponse, Google positionne Gemini comme un concurrent redoutable. Avec plus de 700 millions d'utilisateurs hebdomadaires pour ChatGPT contre 450 millions d'utilisateurs mensuels pour Gemini, cette mise à niveau pourrait aider Google à combler cet écart et à attirer davantage d'utilisateurs sur sa plateforme.
Dans cet exemple de combinaison de trois images, on a voulu rassembler les photos du chien et de la jeune femme sur un terrain de basketball en train de le caresser.


+

Résultat :

Avec les précédents modèles de génération d’images, les photos d’un même visage manquaient de consistance. Avec Gemini 2.5 FI, le visage conserve fidèlement ses traits même si l’environnement change du tout au tout. Comme dans ces 4 photos :




Autre fonction, celle d’ajouter des éléments pour créer un ensemble complet, comme ici à partir d’une pièce vide.

On ajoute un peu de couleur

Une bibliothèque

Un canapé

Pourquoi pas un tapis persan

Et une table

Essai de l’éditeur d’images
Vous pouvez essayer cette nouvelle fonctionnalité d'édition d'images dans l'application Gemini dès aujourd'hui. Toutes les images créées ou modifiées dans l'application Gemini comportent un filigrane visible, ainsi que notre filigrane numérique invisible SynthID, afin d'indiquer clairement qu'elles ont été générées par l'IA.
Sur Instagram, plusieurs exposent leurs images générées par l’une ou l’autre des techniques de Gemini 2.5 Flash Image et, encore, tout simplement à partir d'une commande textuelle.

«Fais de moi une championne McLaren en une pose mi-rapprochée.»
