ChatGPT Images 2.0 est là ! prétend penser, l'évolution du rendu textuel, test de l'effet du menu de nouilles au bœuf

robot
Création du résumé en cours

OpenAI lance ChatGPT Images 2.0, un outil de génération d’images brutes, mettant en avant ses capacités puissantes de mise en page complexe et de traitement multilingue (y compris le chinois), cet article présente en détail les fonctionnalités, caractéristiques, options gratuites et payantes, ainsi que des résultats de tests.

Qu’est-ce que ChatGPT Images 2.0 ? Les principales fonctionnalités et caractéristiques expliquées !

Un outil d’IA de génération d’images capable de rivaliser avec Gemini Nano Banana 2 arrive-t-il ? OpenAI annonce le lancement de ChatGPT Images 2.0, alimenté par le tout nouveau modèle GPT Image 2, qui met en avant la capacité à sélectionner, organiser et révéler des informations dans des images. Voici les 3 principales caractéristiques de ChatGPT Images 2.0 :

Puissant traitement de la mise en page et du multilinguisme

La première caractéristique évidente est la grande amélioration des capacités de mise en page et de traitement multilingue de ChatGPT Images 2.0.

Le média « Techcrunch » indique que, auparavant, la plupart des outils de génération d’images IA utilisaient des modèles de diffusion, souvent en difficulté avec l’écriture de texte. ChatGPT Images 2.0 peut représenter avec précision de petits textes, des icônes et des interfaces utilisateur, même dans des détails fins.

OpenAI affirme que, pour le traitement des langues non latines, comme le chinois, le japonais, le coréen, l’hindi et le bengali, Images 2.0 a fait des progrès significatifs, permettant de générer ces textes avec une clarté extrême dans l’image.

Source : Exemples générés officiels de ChatGPT Images 2.0 par OpenAI

Capacité de réflexion nouvelle et recherche en ligne

En plus de la mise en page et du traitement multilingue, ChatGPT Images 2.0 offre une capacité de réflexion innovante, pouvant rechercher en temps réel des informations sur Internet pour aider à la génération d’images. La base de connaissances du modèle est mise à jour jusqu’en décembre 2025, ce qui facilite la création de contenus liés à des événements récents.

Source : Exemples générés officiels de ChatGPT Images 2.0 par OpenAI

Support de résolution 2K et de ratios d’aspect variés

ChatGPT Images 2.0 supporte la génération d’images jusqu’à une résolution de 2K, avec une gamme étendue de ratios d’aspect, allant du 3:1 en largeur au 1:3 en longueur.

Le responsable de la recherche chez OpenAI, Boyuan Chen, indique que l’architecture d’Images 2.0 a été entièrement repensée, étant un modèle universel capable, avec de simples instructions textuelles, de gérer des conversions de perspectives en style 3D et des raisonnements spatiaux complexes.

Fonctionnalités pour les utilisateurs des plans gratuits et payants de ChatGPT Images 2.0

Un prix à payer pour la qualité ? Les utilisateurs payants de différents niveaux de ChatGPT Images 2.0 peuvent débloquer différentes fonctionnalités, résumées ci-dessous :

  • Utilisateurs gratuits : Actuellement, ils peuvent utiliser le modèle de base ImageGen 2.0 pour effectuer des tâches standard de génération d’images. La version de base inclut déjà plusieurs améliorations clés, telles qu’une meilleure conformité aux instructions, des effets de rendu de texte plus puissants, le support multilingue et une gamme plus variée de ratios d’aspect.
  • Utilisateurs de ChatGPT Plus, Business et Enterprise : Ces abonnés payants peuvent activer le tout nouveau modèle de réflexion. Dans ce mode, le générateur d’images du chatbot utilise la recherche en ligne pour créer des infographies visuelles à partir des fichiers uploadés, en effectuant une inférence structurelle avant de générer l’image. Jusqu’à 8 images peuvent être générées simultanément, avec une cohérence assurée pour les personnages, objets et styles dans chaque scène.
  • Utilisateurs Pro : Ces utilisateurs auront accès à une version avancée du modèle ImageGen Pro. Bien que OpenAI n’ait pas encore précisé précisément la différence entre Pro et la fonction de réflexion, les entreprises peuvent considérer la réflexion comme une mise à niveau fonctionnelle, utile pour produire des infographies basées sur des faits, transformer des documents internes en illustrations explicatives, ou maintenir une cohérence visuelle dans plusieurs assets.
  • Développeurs API : Ils peuvent désormais intégrer le modèle gpt-image-2, supportant la haute résolution et des ratios d’aspect flexibles.

Test pratique de ChatGPT Images 2.0 : menus, magazines, infographies explicatives

Les performances réelles de ChatGPT Images 2.0 correspondent-elles aux promesses d’OpenAI ? Voici nos tests.

Test du menu d’un restaurant de ramen

Un test réalisé par l’éditeur de « Crypto City » avec la version gratuite de ChatGPT, pour créer un menu de ramen taïwanais, avec une simple instruction : « Génère-moi un menu mettant en avant des ramen taiwanais, en utilisant le chinois traditionnel, avec le nom, le prix et une image pour chaque plat. »

Voici le résultat :

Source : Généré par ChatGPT Images 2.0

Pour une version gratuite, le contenu généré est plutôt correct, mais en regardant de plus près, Images 2.0 montre encore des erreurs d’écriture pour les caractères chinois traditionnels plus complexes, ce qui pourrait être amélioré avec la version payante.

De plus, le prix généré se rapproche du prix des ramen à Taipei, avec la possibilité d’ajouter une portion gratuite de nouilles pour la consommation sur place.

Cependant, si vous souhaitez imprimer votre menu, il est conseillé de convertir les images générées en fichiers vectoriels (comme EPS, .ai d’Adobe Illustrator, PDF) en utilisant des profils de couleurs CMJN, ce qui est optimal pour l’impression. Les imprimeurs acceptent aussi des fichiers JPG ou PNG, mais pour des résultats précis, il vaut mieux éviter les ajustements difficiles.

Test de la couverture d’un magazine technologique

Ensuite, un test de couverture de magazine de science-fiction, cette fois pour « Crypto City », avec une mise en page complexe. La consigne : « Génère une couverture de magazine technologique en chinois traditionnel, intitulée ‘Crypto City’, sur le thème ‘L’intersection de la blockchain et de l’IA’. La couverture doit comporter un titre, un numéro, un code-barres, et la date de publication en haut, avec un texte clair et aligné professionnellement. »

Voici le résultat :

Source : Généré par ChatGPT Images 2.0

Ce résultat est similaire à celui ci-dessus, d’aspect correct à première vue, mais en détail, il présente encore des défauts dans la gestion des caractères chinois complexes. La police utilisée pour la couverture ressemble beaucoup à la « Jin Xuan Ti » de Justfont, une police taïwanaise, ce qui soulève la question d’une éventuelle licence.

Ce doute a déjà été évoqué lors du lancement de Nano Banana Pro, comme dans le rapport :

  • Article associé : Test de Nano Banana Pro : progrès sur les caractères chinois ! Mais des inquiétudes sur les animations et les droits de police aussi apparaissent

Test de graphiques explicatifs multilingues

Un graphique expliquant la cause d’un tremblement de terre a été testé en chinois traditionnel, japonais et coréen. La complexité multilingue a été globalement bien rendue, avec une différenciation par couleurs selon la langue. Cependant, en regardant de près, certains caractères chinois, hanzi ou hangul complexes restent flous.

Voici le résultat :

Source : Généré par ChatGPT Images 2.0

Images 2.0 maintient la cohérence des personnages et objets, résolvant ainsi des processus fastidieux

De plus, comme Nano Banana 2, Images 2.0 offre une possibilité d’édition : en cliquant sur « Modifier » en bas à gauche de l’image générée, on peut commencer à ajuster, ce qui permet de garder la cohérence des personnages et objets, facilitant la création de pages de manga, de séries d’images pour les réseaux sociaux ou de plans d’étage pour des maisons.

Adele Li, responsable produit de ChatGPT Images, indique que cette fonctionnalité résout la tâche fastidieuse consistant à générer une seule image à la fois puis à la recoller manuellement, permettant aux créateurs de produire facilement des livres pour enfants ou des assets marketing avec une identité visuelle cohérente.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler