Aller au contenu principal

4 articles tagués avec « Image Generation »

Voir tous les tags

· 7 minutes de lecture
DahnM20

Replicate gives you API access to thousands of AI models — image generation, video generation, image editing, audio, and more. The API is clean, but using it in practice means writing a client for each model, handling polling for async predictions, managing file URLs, and wiring outputs from one model into inputs for the next. That's fine for a production service, but it's a lot of overhead when you're iterating on a pipeline.

AI-Flow can be used as Replicate API workflow builder that removes that overhead. You pick a model from a catalog (or type in any model ID directly), the interface generates the input form from the model's schema, and you connect models together visually. No API calls to write, no polling loop, no file handling code.

How the Replicate node works

Drop a Replicate node on the canvas. You'll see a model selector with a curated list of featured models organized by category — image generation, image editing, video generation. Pick one and click confirm.

Replicate node model selector

The node reconfigures itself based on the selected model's input schema. If the model expects a prompt, a width, a height, and a num_outputs parameter, those fields appear in the node. Input fields that accept data from other nodes show connection handles, so you can wire outputs directly into them.

If the model you want isn't in the featured list, type the model ID directly in the format owner/model-name (for example, black-forest-labs/flux-2-max). AI-Flow fetches the schema from Replicate and builds the form the same way. This works for any model hosted on Replicate — not just the ones in the curated list.

Your Replicate API key lives in the key store (Settings → Secure Store). Set it once; every Replicate node in every workflow draws from it automatically. With your own key, you have access to the full Replicate catalog.

A few of the models currently in the spotlight catalog:

Image generation & editing:

  • FLUX 2 Max / Pro — Black Forest Labs' latest text-to-image models, high quality
  • FLUX 2 Klein 9B / 4B — faster, cheaper FLUX variants for rapid iteration
  • Google Nano Banana 2 — Google's image editing model (Gemini 3.1), handles style transfer, background replacement, inpainting, object removal, and more from a single prompt
  • Seedream 4.5 — text-to-image from ByteDance

Video generation:

  • Google Veo 3.1 — text-to-video with native synchronized audio (ambient sound, dialogue) baked in; no separate audio node needed
  • Google Veo 3.1 Fast — lower-cost variant, same native audio
  • Kling v3 Video / Omni — text-to-video and image-to-video, with native audio output
  • Kling v3 Motion Control — animates an image following a reference motion trajectory
  • Seedance 2.0 / Fast — ByteDance image-to-video and text-to-video

The catalog updates as new models are released on Replicate.

Workflow example: LLM-to-image pipeline

A common use case: use a language model to expand a rough concept into a detailed image prompt, then feed that into a Replicate image model. This avoids the prompt engineering overhead on the image model side and produces more consistent, detailed results.

Step 1 — Text Input

Add a Text Input node. Type your rough concept: "a coastal town at dusk, painted in watercolor".

Step 2 — Claude node (prompt expansion)

Add a Claude node. Connect the Text Input output to the Context field. In the Prompt field:

You are a prompt engineer for image generation models.
Expand the concept in the context into a detailed, vivid image generation prompt.
Describe lighting, composition, style, and mood. Output only the prompt, no commentary.

Select Claude 4.6 Sonnet. This gives you a detailed, model-optimized prompt from a two-word concept.

Step 3 — Replicate node (image generation)

Add a Replicate node. Select FLUX 2 Max from the model catalog. Connect the output of the Claude node to the prompt field of the Replicate node.

Set any other parameters you want — aspect ratio, output format — directly in the node.

Text Input to Claude to FLUX 2 Max pipeline

Step 4 — Run

Hit Run. The pipeline executes in order: your rough concept goes through Claude, an expanded prompt comes out, that prompt goes to FLUX 2 Max on Replicate, and the generated image appears beneath the node. AI-Flow handles the Replicate prediction polling and file storage automatically — you just see the result.

Swap the Text Input content and run again to iterate. Change the Replicate model to compare FLUX 2 Pro vs. FLUX 2 Klein without rewiring anything.

Extending the pipeline

Image editing as a second step

After generating an image, connect its output to a second Replicate node using Google Nano Banana 2. This model takes an image and a text instruction and edits it — change the background, alter the style, remove an object, adjust colors. You get a two-step generate-then-edit pipeline without any code.

Image to video pipeline with Kling v3

Image to video

Connect a Replicate image output to a Kling v3 Video node. Add a motion prompt in the node's text field. The result is a short video animated from your generated image — text → LLM → image → video, all in one workflow.

Note: Veo 3.1 and Kling v3 both output video with native audio already embedded. You don't need to add a separate audio generation node.

Run multiple models in parallel

Connect the Claude output to two separate Replicate nodes — FLUX 2 Max and Seedream 4.5, for example. Both run from the same prompt simultaneously. You get side-by-side results to compare outputs across models without running the pipeline twice.

Running FLUX 2 Max and Seedream 4.5 in parallel from the same prompt

Expose as an API

Add an API Input node at the start and an API Output node at the end. AI-Flow generates a REST endpoint — you POST a concept string, the full pipeline runs, and you get back the image URL. Useful for integrating into an external application without maintaining the pipeline code yourself.

What this removes from your workflow

Without a visual Replicate API workflow builder, running these pipelines means:

  • Writing replicate.run() calls with the right version IDs
  • Polling for prediction status
  • Downloading the output file from Replicate's temporary URL and re-hosting it if needed
  • Writing a second client call for the next model in the chain
  • Redeploying whenever you change a model or parameter

In AI-Flow, changing a model is a dropdown selection. Changing a prompt is editing a text field. Adding a step is dropping a node and drawing a connection. The iteration cycle is much shorter.

Try it

Add your Replicate API key in AI-Flow's key store, drop a Replicate node on the canvas, and pick a model. The templates library has pre-built image and video generation workflows to start from if you'd rather not build from scratch.

· 8 minutes de lecture
DahnM20

FLUX 1.1 Pro: Un Guide Complet

FLUX 1.1 Pro, la dernière avancée en technologie d'IA générative développée par Black Forest Labs, est maintenant disponible via le Noeud Replicate dans AI-FLOW. Dans ce guide, nous explorerons comment FLUX 1.1 Pro peut révolutionner vos projets, comment l'utiliser, et comment il se compare à d'autres modèles populaires comme son prédécesseur, FLUX Pro, et Stable Diffusion 3.

Pourquoi Choisir FLUX 1.1 Pro ?

FLUX 1.1 Pro est trois fois plus rapide que FLUX Pro, offrant des améliorations significatives en termes de qualité d'image, d'adhérence aux prompts, et de diversité. Il établit une nouvelle norme dans la création d'images pilotée par l'IA, ce qui en fait un excellent choix pour les développeurs expérimentés comme pour les débutants dans une variété d'applications. FLUX 1.1 Pro est actuellement le meilleur modèle de texte-à-image disponible.

Flux Statistiques

Source : Artificial Analysis

Comparaison de FLUX 1.1 Pro avec FLUX Pro et Stable Diffusion

Choisir un modèle d'IA nécessite de comprendre comment il se compare aux autres options disponibles. Utilisons un exemple de prompt pour illustrer les capacités de ces modèles :

Un tigre blanc réaliste debout sur un rebord rocheux dans une forêt tropicale dense, une pluie légère tombant autour de lui. L'arrière-plan présente un feuillage vert luxuriant, des arbres imposants, et de la brume s'élevant du sol de la forêt. Une lumière douce et diffuse provenant d'un ciel couvert crée une atmosphère mystique. Sur un rocher à proximité, les mots 'Rainforest Monarch' sont gravés.

Ce prompt fournit suffisamment d'éléments pour évaluer la précision et la créativité de chaque modèle.

FLUX 1.1 Pro vs. FLUX Pro

Dans la comparaison ci-dessous, FLUX 1.1 Pro est en haut, tandis que FLUX Pro est en bas.

Comparaison FLUX

La différence est claire : FLUX 1.1 Pro génère un tigre plus réaliste avec un arrière-plan richement détaillé, créant une scène plus immersive. FLUX Pro, en revanche, a manqué le texte du prompt dans l'une de ses générations.

Note : Chaque modèle a eu une seule tentative - pas de reprises, pas de sélection.

  • Vitesse : FLUX 1.1 Pro est trois fois plus rapide que FLUX Pro, ce qui en fait le choix idéal pour les projets sensibles au temps.

  • Qualité d'Image : Une meilleure adhérence aux prompts et une plus grande diversité signifient que FLUX 1.1 Pro produit des images supérieures par rapport à FLUX Pro.

  • Coût : Proposé à seulement 4 centimes par image, FLUX 1.1 Pro offre une solution rentable pour la génération d'images de haute qualité.

  • Suréchantillonnage des Prompts : FLUX 1.1 Pro inclut une fonction optionnelle de suréchantillonnage des prompts pour une génération d'images améliorée (non activée pour le test).

  • Ratios Personnalisés : Il permet une plus grande flexibilité dans la personnalisation des ratios d'aspect par rapport à son prédécesseur.

    FLUX 1.1 Première GénérationFLUX 1.1 Deuxième Génération
    FLUX Pro Première GénérationFLUX Pro Deuxième Génération

FLUX 1.1 Pro vs. Stable Diffusion 3 Large

Comparaison Stable Diffusion

Encore une fois, il s'agissait d'une génération unique pour chaque modèle. Les résultats parlent d'eux-mêmes — FLUX 1.1 Pro surpasse largement Stable Diffusion 3.

  • Performance : FLUX 1.1 Pro est plus rapide et génère des images de meilleure qualité, en particulier dans des paramètres de haute résolution.
  • Personnalisation : Offre des options de personnalisation avancées, fournissant un plus grand contrôle sur le résultat par rapport à Stable Diffusion.
  • Limitations : FLUX 1.1 Pro ne dispose pas actuellement d'une fonction image-à-image.
  • Qualité Globale : FLUX 1.1 Pro fournit systématiquement des résultats plus précis et visuellement attrayants.

FLUX 1.1 Pro avec Suréchantillonnage des Prompts

Par curiosité, voici une comparaison avec le suréchantillonnage des prompts activé :

Comparaison Suréchantillonnage

En analysant le résultat, nous pouvons déduire ce qui a été ajouté lors du processus de suréchantillonnage :

Première Image : L'accent est mis ici sur les yeux profonds et irréalistes du tigre, leur donnant une qualité mythique. Il y a une nouvelle texture brune sur le rocher, le rendant moins parfait et plus intégré à l'environnement. Je soupçonne également que le suréchantillonnage a ajouté le grand arbre à l'arrière-plan.

Deuxième Image : Dans cette version, la position du tigre semble plus définie. Je crois que le suréchantillonnage a introduit la cascade en arrière-plan, ainsi que la silhouette d'une montagne. De plus, la zone autour de la tête du tigre est moins encombrée, ce qui en fait le point focal dans cet espace désormais plus ouvert. Le rocher présente également une texture supplémentaire.

En conclusion, le suréchantillonnage des prompts est un outil fascinant qui peut ajouter des détails significatifs, du réalisme et une meilleure composition par rapport à un prompt standard utilisé par quelqu'un de moins expérimenté. Cependant, le point négatif est l'imprévisibilité de la direction que prendra le suréchantillonnage pour l'image.

Haute Reproductibilité avec des Prompts et Seeds Cohérents

FLUX 1.1 Pro excelle dans la génération d'images cohérentes, permettant des modifications précises simplement en ajustant le prompt, sans avoir recours à l'inpainting.

Expérimentation : FLUX 1.1 Pro vs. Stable Diffusion 3.5 Large

Pour démontrer sa cohérence, nous avons réalisé un test en utilisant le même seed pour toutes les générations, avec de légères variations dans les prompts. Voici une comparaison entre FLUX 1.1 Pro et Stable Diffusion 3.5 Large :

OCR Workflow with Amazon Textract

Testez par vous-même
  • Seed : 28
Variations de Prompt
  1. Environnement Tropical
    A realistic white tiger standing on a rocky ledge in a dense rainforest, light rain falling around it. The background features lush green foliage, towering trees, and mist rising from the forest floor. Soft, diffused light from an overcast sky creates a mystical atmosphere. On a nearby rock, the words 'Rainforest Monarch' are carved.

  2. Environnement Montagneux
    A realistic white tiger standing on a rocky ledge in a dense mountain, light snow falling around it. The background features lush white foliage, towering trees, and mist rising from the moutain floor. Soft, diffused light from an overcast sky creates a mystical atmosphere. On a nearby rock, the words 'Mountain Monarch' are carved.

  3. Tigre Rugissant dans la Forêt Tropicale
    A realistic white tiger standing on a rocky ledge in a dense rainforest, its mouth open in a powerful roar. Light rain falls around it. The background features lush green foliage, towering trees, and mist rising from the forest floor. Soft, diffused light from an overcast sky creates a mystical atmosphere. On a nearby rock, the words 'Rainforest Monarch' are carved.

Remarque : Pour garantir une cohérence optimale, évitez d'activer l'upsampling des prompts.

Observations Clés
FLUX 1.1 Deuxième GénérationFLUX 1.1 Première GénérationFLUX 1.1 Deuxième Génération

FLUX 1.1 Pro assure une cohérence remarquable avec le même seed, permettant un contrôle précis des éléments visuels. Par exemple :

  • Le tigre reste strictement dans la même position, même lorsque l'arrière-plan change complètement.
  • Modifier l'ouverture de la gueule du tigre n'affecte pas de manière significative le reste de l’image.

En revanche, Stable Diffusion tend à régénérer l’image entière lorsqu’on change l’environnement, ce qui complique la cohérence des résultats.

Au-delà des Paysages : Cohérence des Personnages

Ce niveau de contrôle s’étend également à la génération de personnages. Bien que ce ne soit pas toujours parfait, FLUX 1.1 Pro s'avère extrêmement efficace lorsque le prompt est bien structuré.

📌 Découvrez notre guide détaillé sur la génération de personnages cohérents avec l’IA : Lire l'article.

Commencez à Utiliser FLUX 1.1 Pro dans Vos Workflows avec AI-FLOW

AI-FLOW est une plateforme puissante où vous pouvez connecter plusieurs modèles d'IA de manière transparente, automatiser des processus, et créer des outils d'IA personnalisés sans connaissances approfondies en codage. Que vous automatisiez la création de contenu, expérimentiez avec différents modèles d'IA, ou gériez des données, AI-FLOW possède les outils dont vous avez besoin pour optimiser vos projets.

Vous pouvez facilement expérimenter avec FLUX 1.1 Pro en utilisant le Replicate Node dans AI-FLOW. Il suffit de glisser le nœud dans votre workflow et de commencer à générer des images époustouflantes en quelques secondes.

Prêt à Transformer Vos Projets avec FLUX 1.1 Pro ?

Commencez gratuitement et explorez le potentiel de FLUX 1.1 Pro en visitant AI-Flow App. Libérez votre créativité et faites passer vos projets au niveau supérieur grâce à la puissance de la génération d'images pilotée par l'IA !


Ressources Supplémentaires

Pour plus d'informations détaillées, consultez les ressources suivantes :

· 5 minutes de lecture
DahnM20

Générer des Personnages Cohérents avec l'IA : Un Guide Complet

Vous cherchez à créer des personnages cohérents et uniformes dans vos images générées par IA ? Ce guide vous expliquera des méthodes pratiques pour obtenir une uniformité dans la génération de personnages par IA, une partie de notre défi plus large sur Comment Automatiser la Création de Récits.

Le Défi de la Génération d’Images IA Cohérentes

La génération d’images par IA est un outil puissant, mais elle introduit souvent un certain degré de hasard. Cela signifie que vous devrez peut-être générer des images plusieurs fois pour obtenir un résultat convaincant. Ce guide ne présente pas des techniques de pointe mais partage plutôt mes propres expériences pour vous aider à obtenir des images de personnages plus cohérentes.

Bien que les méthodes discutées ne soient pas infaillibles, elles représentent une série d’expériences qui peuvent vous guider dans le développement de votre propre approche pour la génération de personnages IA cohérents.

Méthode 1 : Des Descriptions de Prompts Précises

L’un des éléments clés pour une génération d’images réussie est de créer des prompts de haute qualité. Si vos descriptions sont précises et uniformes, vous êtes plus susceptible d’obtenir des résultats similaires sur plusieurs images.

Compte tenu de nos défis avec la précision, nous utiliserons l’IA pour aider à générer des descriptions détaillées. Par exemple, j'ai commencé avec une image générée précédemment et demandé à GPT-4 de la décrire précisément. Cette description a ensuite été utilisée comme prompt pour Stable Diffusion 3.

Première Génération

Malgré quelques similitudes, l’IA a manqué certains détails, comme l’âge du personnage. En mettant à jour le prompt pour préciser à GPT que le personnage a 16 ans, nous obtenons une meilleure description et donc une meilleure cohérence.

Deuxième Génération

Dans cette itération, l’IA a mal interprété la couleur des cheveux à cause des effets de lumière dans l’image originale. En utilisant la fonctionnalité Recherche et Remplacement de StabilityAI, j'ai échangé les cheveux rouges contre des cheveux bruns et affiné la description.

Troisième Génération

Voici une correction rapide pour l’animal de compagnie du personnage, encore une fois en utilisant la fonctionnalité Recherche et Remplacement.

Quatrième Génération

Avec le prompt initial révisé, incluant des détails spécifiques sur la couleur des cheveux et d'autres caractéristiques, les résultats sont plus cohérents dès le début dans la nouvelle itération.

Méthode 2 : Maintenir le Même Seed et le Même Prompt

Une fois que vous avez trouvé un prompt efficace, vous pouvez obtenir une grande variété de résultats tout en conservant une cohérence visuelle en utilisant le même seed.

Par exemple :

AI-FLOW Template - Image de BaseAI-FLOW Template - Image de BaseAI-FLOW Template - Image de BaseAI-FLOW Template - Image de Base

Toutes ces images ont été générées avec le même seed et des prompts quasi identiques, en modifiant uniquement de petits détails. Elles ont été créées à l'aide de FLUX Pro 1.1.

En ajustant des paramètres tels que le ratio d'aspect, vous pouvez obtenir encore plus de variations.

Méthode 2 - 1

Méthode 2 - Flow

Astuce : Une fois que vous avez un prompt et un seed fiables, expérimentez en modifiant progressivement certaines sections du prompt pour affiner les détails tout en maintenant la cohérence.


Méthode 3 : Ajuster les Expressions Faciales

Lorsque vous avez établi un design de personnage cohérent, vous pouvez vouloir générer des variations d'expressions faciales.

Pour cela, des modèles comme fofr/expression-editor sont particulièrement efficaces.

Ce modèle vous permet de modifier des paramètres faciaux tels que le sourire, la position des sourcils ou l'inclinaison du visage afin de créer des variations expressives.

Méthode 3 - Ajustement des Expressions

Méthode 4 : Utiliser des Modèles Spécialisés pour la Cohérence

L'utilisation de modèles d'IA dédiés, comme fofr/consistent-character, en combinaison avec le Noeud Replicate, permet de générer différentes inclinaisons du visage tout en maintenant la cohérence du personnage.

Génération d'Angles du Visage

Remarque : Ces modèles fonctionnent particulièrement bien pour les personnages réalistes, mais peuvent rendre les personnages de style cartoon plus réalistes. L'expérimentation est essentielle.

Une fois que vous avez obtenu plusieurs angles de visage et expressions cohérents, vous pouvez les intégrer dans de nouvelles images afin d'affiner encore davantage la cohérence du personnage.

Conclusion et Prochaines Étapes

Ce guide fournit un point de départ pour atteindre la cohérence dans les personnages générés par IA. En affinant les prompts et en créant des modèles de visage cohérents, vous pouvez produire des images de personnages plus cohérentes et crédibles.

Restez à l'écoute pour la Partie 2, où nous explorerons des méthodes supplémentaires pour affiner et compléter votre processus de génération de personnages.

Commencez à expérimenter avec ces méthodes dès aujourd'hui en utilisant AI-FLOW.


En incorporant ces stratégies, vous serez sur la voie de maîtriser la génération cohérente de personnages avec l'IA. Pour des techniques et des exemples plus approfondis, assurez-vous de suivre notre blog et de consulter la prochaine partie de cette série.

· 2 minutes de lecture
DahnM20

Introducing Enhanced StabilityAI Integration in AI-FLOW

With the integration of StabilityAI's API into AI-FLOW, we've broadened our suite of features far beyond Stable Diffusion 3. This integration allows us to offer a versatile range of image processing capabilities, from background removal to creative upscaling, alongside search-and-replace functionalities.

Given the expansive set of tools and the ongoing advancements from StabilityAI, we've adopted a more flexible integration approach, akin to our implementation with the Replicate API. Our goal is to support automation and rapid adoption of new features released by StabilityAI.

StabilityAI feature showcase

Here's a rundown of the features now accessible through AI-FLOW, as per the StabilityAI documentation:

  • Control - Sketch: Guide image generation with sketches or line art.
  • Control - Structure: Precisely guide generation using an input image.
  • Edit - Outpaint: Expand an image in any direction by inserting additional content.
  • Edit - Remove Background: Focus on the foreground by removing the background.
  • Edit - Search and Replace: Automatically locate and replace objects in an image using simple text prompts.
  • Generate - Core: Create high-quality images quickly with advanced workflows.
  • Generate - SD3: Use the most robust version of Stable Diffusion 3 for your image generation needs.
  • Image to Video: Employ the state-of-the-art Stable Video Diffusion model to generate short videos.
  • Upscale - Creative: Elevate any low-resolution image to a 4K masterpiece with guided prompts.

These enhanced capabilities are great assets for your image processing workflow. Explore these features and find innovative ways to enhance your projects! Try it now!