Je dois confesser être encore plus bluffé par les capacités de création de l’intelligence artificielle en multimédia que pour les textes, que je vous ai présentées dans un autre article. Et ça n’est pas peu dire. La qualité des images produites par les principaux services continue à augmenter et dépasse l’entendement. L’IA comprend bien plus facilement nos requêtes qu’il y a quelques mois, alors que nous devions souvent les reformuler un certain nombre de fois pour arrive à ce que nous avions en tête. Elle se montre aussi considérablement plus imaginative et créative qu’il y a tout juste quelques mois.
Les modèles se disputant le podium comptent essentiellement au nombre de quatre dont le niveau de qualité a fortement tendance à se resserrer. Mais Midjourney semble destiné à conserver la première place. Les rendus produits par sa toute récente version 6 atteignent un niveau inégalé.
En revanche, son ergonomie reste consternante. Pour y accéder, il faut passer par un compte Discord, puis formuler une requête finement ciselée en s’appuyant sur une syntaxe digne d’un langage de programmation des années 70. J’exagère à peine. Mais les non-informaticiens vont se sentir sérieusement à la peine, et son tarif attractif ne compense pas ces tracasseries ergonomiques dignes d’un autre temps.
Les trois outils suivants se tiennent un cran en dessous, mais dans un mouchoir de poche. Ils maintiennent un niveau de progression soutenu. Commençons par Dall-E 3. Il s’agit d’un service d’Open AI, l’éditeur de ChatGPT. Bien qu’il existe des contre-exemples, le service se débrouille de façon exemplaire pour comprendre et interpréter au mieux nos requêtes. Dans cette catégorie, vous trouverez aussi Stable Diffusion, dans sa dernière version SDXL 1.0, ou encore Leonardo. Celui-ci mène activement la course à l’innovation. Il devrait par exemple permettre très prochainement d’animer ses créations.
Bien que j’adore Midjourney, son utilisation contraignante me fait plutôt pencher pour les trois autres. Lequel exactement ? Les trois en même temps. C’est ce que propose Magai dans le cadre d’un abonnement unique, qui couvre pour le même prix tous les principaux modèles de création texte en même temps. A vous de choisir comment vous entendez dépenser vos crédits mensuels. C’est bien simple, je n’utilise quasiment plus que ça, avec un prix identique à celui de ChatGPT Plus.
D’autres outils s’appuient parfois sur Dall-E 3, comme Copilot de Microsoft. Ou sur Stable Diffusion, comme le très intéressant Logo Diffusion. Sa version 2 manquait un peu de maturité, et la toute récente v3 améliore nettement les choses. Et sa version gratuite devrait bien suffire dans la majorité des cas.
Enfin, j’en viens à la catégorie reine qui nous a tous fait rêver : la vidéo. Je dois avouer que je ne l’attendais pas beaucoup plut tôt que la fin du chômage, mais elle montre pourtant déjà son nez. Et ces premiers balbutiements promettent beaucoup, même s’ils produisent encore des résultats relativement aléatoires. Lancez-vous néanmoins sans hésiter sur Pika et Pixverse, vous m’en direz des nouvelles.
Articles sur des sujet similaires:
Votre logo en vidéo HD pour moins de 100€?
- Renforcez votre image de marque
- Donnez une touche pro à vos vidéos
- Obtenez simplement un effet d'homogénéité