Charakter-Konsistenz bei KI-Influencern: Der komplette Guide (2026)

Virtual Faces Team
Marketing
Zuletzt aktualisiert am 19. Mai 2026

Der Unterschied zwischen einem Hobby-Account und einem KI-Influencer, dem 50.000 Menschen folgen, ist nicht das Modell, nicht der Workflow und nicht das Budget. Es ist eines: das Gesicht bleibt gleich. Über hundert Posts, über drei Outfit-Wechsel pro Woche, über Foto und Reel und Story hinweg. Wenn dein Charakter in Post #12 plötzlich eine andere Nasenform hat als in Post #11, merkt das niemand bewusst — aber unterbewusst entkoppelt es den Follower. Bindung entsteht durch Wiedererkennung. Und Wiedererkennung entsteht durch ein Gesicht, das morgen noch genauso aussieht wie heute.

Genau hier kapituliert die Mehrheit der Creator. Sie generieren das erste Bild, sind begeistert, generieren das zweite — und merken: anderer Charakter. Sie probieren denselben Prompt, denselben Seed, dasselbe Modell, und bekommen trotzdem eine andere Person. Frustration. Dann kommt der typische Reflex: „Vielleicht brauche ich ein anderes Modell.“ Spoiler — nein. Du brauchst eine der fünf Techniken, die wir in diesem Guide auseinandernehmen.

Diese fünf Techniken decken in Summe sechs Modelle ab: Flux, Midjourney, Nano Banana 2, Seedream 4, SDXL und Ideogram. Wir gehen jede Technik in der Tiefe durch, zeigen dir die exakte Syntax pro Modell, geben dir Copy-Paste-Prompts und benennen die sieben häufigsten Konsistenz-Fehler, an denen Creator scheitern. Dieser Artikel ist die direkte Vertiefung der Charakter-Konsistenz-Sektion aus der Prompt-Bibliothek für KI-Influencer — wenn du dort bereits gelesen hast, findest du hier die Vollversion mit allen Workflow-Details.

Warum Konsistenz so schwer ist — und warum es zählt

Diffusion-Modelle sind nicht-deterministisch. Genauer: sie sind deterministisch relativ zu einem Seed, aber sobald du irgendetwas am Prompt änderst — auch nur ein Wort, eine Position, ein Negativ-Token — verschiebt sich der Latent Space. Das ist der mathematische Raum, in dem die Generierung passiert: ein hochdimensionales Gitter, in dem jede leicht andere Wortkombination zu einem leicht anderen Punkt führt. Und dieser leicht andere Punkt ist eben nicht „dieselbe Person in einem anderen Outfit“, sondern „eine ähnliche Person mit minimal anderem Gesicht“. Latent Space Drift heißt das Phänomen.

Hinzu kommt: Modelle haben kein eingebautes Identitätskonzept. Wenn du in den Prompt schreibst „a 24-year-old woman with auburn hair and freckles“, erzeugt das Modell aus dem gesamten Trainingsmaterial eine wahrscheinlichkeitsgewichtete Mischung aller 24-jährigen Frauen mit auburn-Haar und Sommersprossen. Das ist kein Fehler — es ist die Funktionsweise. Modelle sehen keine Personen, sie sehen Wahrscheinlichkeitswolken. Konsistenz zu erzwingen bedeutet, dem Modell zusätzliche Anker mitzugeben, die diese Wahrscheinlichkeitswolke zu einer einzigen Person verdichten.

Auf der Business-Seite ist die Logik noch klarer. Aitana Lopez, die spanische KI-Influencerin, ist nicht trotz, sondern wegen ihres konsistenten Gesichts auf über 350.000 Follower gewachsen. Lil Miquela hat als CGI-Charakter denselben Vorteil — ein Look, eine Frisur, ein wiedererkennbarer Eyeliner-Wing, jedes Mal. Beide Accounts würden in Minuten zerfallen, wenn jeder zweite Post mit einer leicht anderen Person daherkäme. Followers kommen wegen der ersten Begegnung mit einer Person, aber sie bleiben, weil dieselbe Person regelmäßig zurückkehrt. Konsistenz ist also nicht nur eine Frage der Ästhetik — sie ist die Voraussetzung für parasoziale Bindung, also für genau das, was Influencer-Marketing wirtschaftlich macht.

Wenn du in dieser Logik noch nicht bist, lies vorher den Hauptguide: KI-Influencer erstellen. Für alle anderen geht es ab hier ins Maschinenraum-Detail.

Die 5 Techniken im Überblick

Es gibt grob fünf Familien an Konsistenz-Techniken. Sie schließen sich nicht aus — die meisten Pro-Workflows kombinieren mindestens zwei. Aber jede hat einen klaren Anwendungsbereich, eine klare Schwäche und eine klare Hürde.

Technik 1 — Seed-Locking. Der Generator startet jeden Diffusion-Prozess mit einem zufälligen Rauschmuster, dem Seed. Wenn du denselben Seed verwendest und nur minimale Prompt-Änderungen vornimmst, bekommst du sehr ähnliche Bilder. Praktisch nutzbar nur für kleine Variationen — anderer Hintergrund bei gleicher Pose, andere Lichtstimmung bei gleichem Outfit. Für echte Szenenwechsel zu schwach.

Technik 2 — Reference-Image-Methoden. Du gibst dem Modell ein Bild deiner Foundation-Person mit und sagst: „behalte dieses Gesicht bei“. Midjourney macht das über --cref, Nano Banana 2 über native Reference-Image-Workflows, Seedream 4 über seine Identity-Preservation-Funktion, Ideogram über den Character Reference Mode. Schnellster Weg zu brauchbarer Konsistenz, ohne ein eigenes Modell zu trainieren. Schwäche: Drift bei extremen Winkeln und Close-Ups.

Technik 3 — LoRA-Training. Du trainierst ein kleines Zusatz-Modell auf 15–30 Fotos deines Charakters. Das ist der Goldstandard — sobald du eine Foundation hast, generiert das Modell den Charakter zuverlässig in beliebigen Szenen, Outfits, Lichtsituationen. Hürde: Du musst zuerst die Foundation haben, also 15–30 konsistente Bilder, die du wiederum nur per Technik 1 oder 2 produzierst. Klassisches Henne-Ei-Problem, das wir weiter unten auflösen.

Technik 4 — Face-Swap / Inpainting. Du generierst Szenen frei und tauschst dann das Gesicht per Roop, ReActor oder FaceFusion gegen das deines Charakters aus. Schnell, funktioniert auch bei extremen Posen — aber technisch und ethisch heikel, weil dieselben Tools für Deepfakes benutzt werden. Als Fallback nutzbar, nicht als Hauptworkflow.

Technik 5 — ControlNet Face Reference. Im SDXL- und Flux-Ökosystem auf ComfyUI kannst du ControlNet-Module einbinden, die Gesichtszüge aus einem Referenzbild als zusätzlichen Konditionierungs-Input mitgeben. Mächtig, aber Setup-intensiv — nichts für die ersten Wochen.

Die nächsten fünf Abschnitte sind je eine Technik in der Tiefe. Pro Sektion: wann es funktioniert, wann nicht, Code- oder Prompt-Beispiele, Pro- und Contra-Liste.

Technik 1 — Seed-Locking: Wenn dasselbe Rauschen reicht

Jede Diffusion startet mit einem zufälligen Rauschmuster, das durch eine ganze Zahl repräsentiert wird — den Seed. Wenn Modell, Prompt, Sampler und Step-Count identisch sind, produziert derselbe Seed dasselbe Bild. Sobald sich am Prompt etwas ändert, divergiert das Ergebnis — aber bei kleinen Änderungen bleibt der grundsätzliche Charakter sehr ähnlich, weil der Latent Space lokal stabil ist.

In der Praxis heißt das: Du findest einen Seed, der ein gutes Foundation-Bild liefert, notierst ihn, und benutzt ihn für Variationen mit minimal angepassten Prompts. Anderer Hintergrund, andere Lichtfarbe, andere Tageszeit — der Charakter bleibt mit 70–85% Wahrscheinlichkeit erkennbar. Wenn du allerdings vom Studio-Portrait zur Ganzkörperaufnahme im Park wechselst, ist die Konsistenz weg, weil sich Kameradistanz und Komposition zu stark ändern.

Wann Seed-Locking funktioniert:

Mehrere Bilder derselben Szene mit leicht anderem Hintergrund.
A/B-Tests für Outfit-Varianten im selben Setup.
Schnelle Iteration während der Foundation-Phase, um eine „Lieblings-Person“ zu finden, die du dann per LoRA verewigst.

Wann nicht:

Wechsel von Studio zu Outdoor.
Wechsel von Close-Up zu Full Body.
Mehrere Charaktere im Bild.
Sobald die Prompt-Token-Reihenfolge stärker umgeschichtet wird.

Code-Beispiele

In Flux (über die fal.ai oder Replicate API) gibst du den Seed direkt als Parameter mit:

import requests

response = requests.post(
    "https://api.fal.ai/v1/flux/dev",
    headers={"Authorization": f"Key {API_KEY}"},
    json={
        "prompt": "Editorial portrait of a 24-year-old woman with auburn hair, "
                  "soft window light, Berlin Altbau cafe, 85mm, magazine cover quality",
        "seed": 718293,
        "num_inference_steps": 30,
        "guidance_scale": 3.5,
        "width": 832,
        "height": 1216,
    },
)

Für SDXL in ComfyUI oder Automatic1111 ist der Seed ebenfalls ein direkter Knoten- bzw. UI-Parameter. In ComfyUI siehst du ihn am KSampler-Node:

KSampler:
  seed: 718293
  control_after_generate: fixed   # WICHTIG — sonst wird neu randomisiert
  steps: 30
  cfg: 7.0
  sampler_name: dpmpp_2m_sde_gpu

Der Schalter control_after_generate: fixed ist der häufigste Stolperstein — wer ihn auf randomize lässt, bekommt bei jedem Klick einen neuen Seed und wundert sich, warum nichts konsistent ist.

In Seedream 4 (Pro-Pricing über die ByteDance API) gibst du den Seed über das seed-Feld der Request mit:

import requests

response = requests.post(
    "https://api.bytedance.com/seedream/v4/generate",
    headers={"Authorization": f"Bearer {SEEDREAM_KEY}"},
    json={
        "prompt": "Editorial portrait of a 24yo woman, auburn hair with freckles, "
                  "warm afternoon light, sitting at a window seat, 85mm lens",
        "seed": 718293,
        "guidance_scale": 5.0,
        "size": "1024x1536",
    },
)

Der Trick liegt im Workflow: Generiere drei bis fünf Bilder mit komplett zufälligen Seeds, picke das beste Gesicht, notiere den Seed (er steht in der Metadata jeder API-Response), und nutze ab dann diesen Seed als Anker für kleine Variationen.

Pro / Contra

Pro: Null Setup-Aufwand. Funktioniert in jedem Modell. Schnell.
Contra: Bricht zusammen, sobald sich die Komposition ändert. Praktisch nur die „Foundation-Phase“ eines Workflows, nicht das langfristige System.

Für ernsthafte Konsistenz über hundert Bilder hinweg brauchst du Reference-Image-Methoden oder LoRA. Seed-Locking ist die Brücke dorthin.

Technik 2 — Reference-Image-Methoden: Der schnellste Workflow

Das ist die Methode, mit der du in 80% der Fälle anfangen solltest. Du brauchst genau eine Sache: ein einziges gutes Foundation-Bild deines Charakters, das du dem Modell als visuelle Referenz mitgibst. Das Modell extrahiert daraus eine Embedding-Repräsentation der Person und versucht, die Identität in jeder neuen Generation beizubehalten.

Jedes der vier wichtigsten Modelle hat dafür einen eigenen Mechanismus. Wir nehmen sie der Reihe nach durch.

Midjourney `--cref`: Der Klassiker

Midjourney war eines der ersten kommerziellen Modelle mit einer dedizierten Character-Reference-Funktion. Der Befehl --cref [url] weist Midjourney an, das Gesicht aus dem verlinkten Bild als Identitätsanker zu nehmen. Der zusätzliche Parameter --cw [0–100] (Character Weight) steuert, wie stark Midjourney das Referenzgesicht gewichtet. 100 = maximale Bindung, 0 = ignoriere die Referenz fast vollständig.

Ein vollständiger Befehl sieht so aus:

/imagine prompt: editorial fashion portrait, 24yo woman with auburn hair and 
freckles, sitting in a Berlin Altbau cafe, soft afternoon light from window left, 
holding an oat-milk cappuccino, magazine cover quality, 85mm lens, candid mood 
--cref https://i.imgur.com/yourFoundationShot.jpg --cw 80 --ar 4:5 --style raw --v 7

Empfehlung aus der Praxis: --cw 80 ist der Sweet Spot. Bei --cw 100 zwingt Midjourney das Referenzgesicht so stark in jede Szene, dass die Beleuchtung und die Komposition leiden — das Modell rendert dann oft „Gesicht eingeklebt“ statt „Gesicht im Licht“. Bei --cw 50 driftet die Identität zu stark. 70–85 ist der Bereich, in dem die meisten Pro-Creator landen.

Weitere Tipps für --cref:

Die Referenz-URL muss öffentlich erreichbar sein (Imgur, direct Discord-Link, eigene CDN).
Mehrere --cref-URLs in einem Prompt sind möglich (durch Leerzeichen getrennt) und liefern oft eine stabilere Identität als nur eine Referenz.
Bei --style raw wird das Referenzgesicht weniger stark „schöner gemacht“ als beim Standard-Style — wichtig, wenn du den realistischen Look behalten willst.

Vertiefung zum gesamten Midjourney-Workflow für AI Influencer findest du im Midjourney-Guide für KI-Influencer.

Nano Banana 2 Reference Image: Native Bild-zu-Bild

Nano Banana 2 (Googles GenAI-Imaging-Modell) hat eine Reference-Image-Funktion, die im Kern ein Image-to-Image-Workflow ist, aber so kalibriert, dass die Identität primär aus dem Referenzbild kommt und Pose, Licht und Szene primär aus dem Prompt.

API-Beispiel:

from google.genai import GenerativeModel

model = GenerativeModel("nano-banana-2")

response = model.generate_image(
    prompt=(
        "Same person as in the reference image. Golden hour rooftop shot in Berlin, "
        "wearing a beige trench coat, looking off-camera to the right, 50mm lens, "
        "warm cinematic color grade, magazine quality, natural skin texture."
    ),
    reference_images=["https://your-cdn.com/foundation-shot.jpg"],
    aspect_ratio="9:16",
    seed=412598,
)

Wichtig bei Nano Banana 2: Der erste Satz des Prompts sollte buchstäblich „Same person as in the reference image“ oder eine Variante davon enthalten. Ohne diesen expliziten Anker behandelt das Modell die Referenz als Stil-Inspiration, nicht als Identitätsanker. Diese kleine Eigenheit kostet Anfänger oft tagelange Frustration.

Mehr zu Workflow, Preisen und Limits steht im ausführlichen Nano Banana 2 Guide.

Seedream 4 Identity Preservation: Für Asiens beste Identitätskontrolle

Seedream 4 von ByteDance hat den derzeit stärksten Identitätserhalt unter den großen kommerziellen Modellen — vermutlich, weil das Modell stark auf asiatische Gesichter trainiert wurde, wo subtile Unterschiede die Identität definieren und deshalb sehr feinkörnig erfasst werden mussten. Aber: Das funktioniert genauso gut für europäische, afrikanische, lateinamerikanische Gesichter.

Der relevante Parameter heißt identity_preservation_strength und nimmt Werte zwischen 0.0 und 1.0:

response = seedream.generate(
    prompt="A 24yo woman with auburn hair and freckles, walking through a Tokyo "
           "neon-lit alley at night, hands in pockets of an oversized denim jacket, "
           "shot on 35mm Cinestill 800T, neon reflections in puddles",
    reference_image_url="https://your-cdn.com/foundation-shot.jpg",
    identity_preservation_strength=0.85,
    seed=412598,
    size="1080x1920",
)

Werte ab 0.85 liefern in unseren internen Tests eine Identitätsbindung, die bei nicht-extremen Winkeln über 100 Bilder hinweg stabil bleibt. Bei 1.0 wird das Bild manchmal artefaktig — die Identitätsmaske wird zu hart aufgepresst.

Tiefer-Tauch in Pricing, API-Tiers und Limits: Seedream 4 Guide.

Ideogram Character Mode: Für Brand-Storytelling

Ideogram hat 2025 einen Character Reference Mode bekommen, der ähnlich wie Midjourneys --cref funktioniert, aber besonders gut bei Text-im-Bild-Szenen (Magazin-Cover, fiktive Werbeplakate, Comic-Panels mit Sprechblasen). Wer einen KI-Influencer baut, der nicht nur Selfies, sondern auch Brand-Mockups und Editorial-Spreads veröffentlicht, kommt um Ideogram nicht herum.

Editorial magazine cover, "VOGUE BERLIN", featuring [character], 
auburn hair styled in a low bun, beige Helmut Lang turtleneck, 
soft studio light from front-right, 35mm portrait lens, headline "DIE NEUE STILLE"
[Character Reference: upload foundation.jpg, Strength: 80]

Die Strength-Skala in Ideogram ist 0–100, der Sweet Spot bei 70–85, vergleichbar mit Midjourney. Volle Tour durch Funktionen und Limits: Ideogram Guide.

Reference-Image: Pro / Contra

Pro: Sofort einsetzbar. Kein Training. Funktioniert mit einer einzigen Foundation-Aufnahme.
Contra: Drift bei extremen Winkeln (z. B. komplettes Profil, Vogelperspektive), Drift in extremen Close-Ups (Augen-Makro), Drift bei stark verzerrenden Lichtsituationen (harte Gegenlichter, Neon). Für 80% der Use-Cases reicht das. Für die übrigen 20% — meist Brand-Shootings mit kreativen Winkeln — brauchst du LoRA.

Technik 3 — LoRA-Training: Der Gold-Standard

Wenn dein Workflow auf 100+ Bilder pro Monat skaliert und du den Charakter in jeder denkbaren Pose, jedem Licht, jedem Outfit brauchst, ist LoRA der einzige Weg, der wirklich trägt. Low-Rank Adaptation — so heißt die Methode ausgeschrieben — trainiert ein kleines Zusatz-Modell, das in das Hauptmodell (meist Flux oder SDXL) eingehängt wird und dessen Aufgabe ist, beim Wort [trigger-token] exakt deinen Charakter zu produzieren.

Du brauchst dafür 15–30 saubere Foundation-Bilder deines Charakters in unterschiedlichen Winkeln, Outfits und Lichtsituationen. Die Trainingsdauer liegt bei 30–90 Minuten auf einer Cloud-GPU (RunPod, Replicate, fal.ai) und kostet je nach Anbieter 1–6 US-Dollar pro Trainingslauf. Das Ergebnis ist eine .safetensors-Datei von typischerweise 50–250 MB, die du in deinem Generierungs-Workflow als zusätzlichen Layer lädst.

Der Aufruf in Flux sieht dann typischerweise so aus:

response = flux.generate(
    prompt="aitanaXX woman with auburn hair, golden hour rooftop, beige trench coat, "
           "looking off-camera, 50mm lens, magazine cover quality",
    loras=[
        {"path": "https://your-cdn.com/aitanaXX-v3.safetensors", "scale": 0.9},
    ],
    seed=412598,
    width=832,
    height=1216,
)

Der trigger-token (hier aitanaXX) ist das geheime Wort, auf das du das Modell trainiert hast — wenn es im Prompt auftaucht, aktiviert das LoRA die gelernte Identität. Das scale-Feld (auch „LoRA Weight“) liegt bei der besten Identitätsbindung meist zwischen 0.85 und 1.0.

Warum wir das in diesem Guide nur überblicksartig behandeln: LoRA-Training hat genug eigene Tiefe, dass es einen eigenen Artikel verdient. Den vollständigen LoRA-Training-Guide für KI-Influencer findest du als Schwester-Artikel zu diesem hier — er deckt Datenset-Vorbereitung, Hyperparameter, Caption-Strategien und Cloud-Anbieter-Vergleich ab. Für Flux-spezifische Tipps zur Integration ist außerdem unser Flux-Guide mit LoRA-Workflow der direkteste Einstieg. Wer komplett selbst hosten will (für NSFW oder maximale Privatsphäre), nutzt Qwen Image und SDXL — siehe Qwen Image Guide.

Wer LoRA braucht — ein einfaches Heuristik-Set:

Skala unter 50 Bildern pro Monat → Reference-Image-Methode reicht.
Skala 50–200 Bilder pro Monat → LoRA spart Zeit und produziert stabilere Ergebnisse.
Skala über 200 Bilder pro Monat → LoRA ist Pflicht, alles andere ist ineffizient.
Spezielle Posen oder Outfits, die Reference-Image-Methoden nicht zuverlässig liefern → LoRA.

Technik 4 — Face-Swap & Inpainting: Wenn nichts anderes klappt

Es gibt Szenen, in denen Reference-Image-Methoden und sogar LoRA an ihre Grenzen kommen: extreme Posen (Yoga-Asanas, Tanz-Pirouetten), extreme Winkel (Vogelperspektive, Untersicht von schräg unten), oder Mehr-Personen-Szenen, in denen das Modell die Identitäten verwechselt. In solchen Fällen funktioniert oft der umgekehrte Workflow: Generiere die Szene mit beliebigem Gesicht, tausche dann das Gesicht im Post-Processing.

Die drei gängigen Tools:

Roop — Open Source, lokal lauffähig, Python-basiert. Sehr schnell, mittlere Qualität, kämpft bei extremen Winkeln.

ReActor — als ComfyUI-Custom-Node verfügbar, dadurch direkt in den Generierungs-Workflow integrierbar. Bessere Kantenbehandlung als Roop, vor allem im Haaransatz-Bereich.

FaceFusion — moderner als Roop, mehrere Face-Detection-Backbones (Dlib, RetinaFace, MediaPipe) per Switch wählbar. Beste Qualität für extreme Posen.

Ein typischer ComfyUI-Workflow mit ReActor:

[ Generate Scene with random face ]
        |
        v
[ Load Source Face: foundation.jpg ]
        |
        v
[ ReActor FaceSwap Node ]
   - face_restore: GFPGAN
   - face_detection: retinaface_resnet50
   - blend: 0.85
        |
        v
[ Save / Upscale ]

In Code-Form für eine eigene Pipeline:

from facefusion import FaceFusionPipeline

pipeline = FaceFusionPipeline(
    source_face_path="foundation.jpg",
    detector="retinaface",
    swapper_model="inswapper_128",
    face_restore="codeformer",
    blend=0.85,
)

result = pipeline.swap(
    target_image="generated_scene.png",
    output_path="final.png",
)

Wann sinnvoll:

Extreme Posen, die Reference-Image-Methoden nicht halten können.
Mehr-Personen-Szenen, in denen das Modell die Identitäten „vermischt“.
Schnelle Korrektur eines fast-perfekten Outputs, bei dem nur das Gesicht knapp daneben ist.

Wann nicht:

Als Hauptworkflow. Face-Swap erzeugt eine „draufgesetzte“ Ästhetik, die geübte Augen schnell erkennen.
Für Close-Ups unter 50% Bildanteil Gesicht. Die Kantenbehandlung wird sichtbar.
In Reels und Videos, wo Konsistenz Frame-für-Frame nötig ist (dann brauchst du Video-Face-Swap-Tools wie DeepFaceLab, die wieder eine eigene Welt sind).

Ethik-Hinweis am Rand: Dieselben Tools werden für nicht-konsensuelle Deepfakes missbraucht. Wir nutzen sie ausschließlich für eigens generierte Charaktere ohne reale Vorlage. Wenn du das nicht eindeutig garantieren kannst, lass die Finger von Face-Swap und nutze nur LoRA auf vollständig synthetischen Foundation-Sets.

Technik 5 — ControlNet Face Reference: Für Pro-Workflows in ComfyUI

ControlNet ist eine Erweiterung von Diffusion-Modellen, die einen zusätzlichen Konditionierungs-Input erlaubt — typischerweise ein Edge-Map, eine Pose-Skelettierung oder eben ein Gesichts-Embedding. Das Face-Modell von ControlNet (ältere Versionen heißen ControlNet-Face, neuere IP-Adapter Face Plus) extrahiert eine 512-dimensionale Identitätsrepräsentation aus deinem Referenzbild und gibt sie als zusätzlichen Input in den Diffusion-Prozess.

Das Setup lebt in ComfyUI oder Automatic1111. Im typischen ComfyUI-Workflow sieht es so aus:

[ CLIP Text Encode: positive prompt ]    [ Load Image: foundation.jpg ]
            |                                       |
            v                                       v
[ KSampler ]   <----  [ IP-Adapter Face Plus, weight 0.9, weight_type: linear ]
            |
            v
[ VAE Decode ] --> [ Save Image ]

Der Vorteil gegenüber Reference-Image-APIs: Du kannst ControlNet Face mit anderen ControlNet-Inputs kombinieren — z. B. Face Reference + OpenPose für eine exakte Pose-Vorgabe + Depth-Map für eine spezifische Kameraperspektive. Damit hast du gleichzeitige Kontrolle über Identität, Pose und Komposition. Das schaffen die kommerziellen Reference-Image-APIs (Midjourney, Nano Banana, Seedream) so nicht.

Der Nachteil: Setup-Aufwand. ComfyUI selbst, das IP-Adapter-Custom-Node-Bundle, die richtigen Modelldateien (ip-adapter-faceid-plusv2_sdxl.bin oder das Flux-äquivalent), und die Erfahrung, die Weights pro Use-Case zu kalibrieren — das sind 2–3 Wochenenden Lernkurve.

Wer ohnehin in ComfyUI arbeitet und Flux nutzt, sollte ControlNet Face nicht als Konkurrenz zu Reference-Image-APIs sehen, sondern als ergänzende Schicht. Konkrete Schritt-für-Schritt-Anleitungen zum Aufsetzen des kompletten Stacks findest du im ComfyUI-Flux-Guide für KI-Influencer.

Die Konsistenz-Matrix: Welche Technik für welches Modell

Nicht jede Technik passt zu jedem Modell. Die folgende Matrix fasst zusammen, welche Kombinationen in der Praxis funktionieren und welche du dir sparen kannst. Bewertet von „stark“ (klare Empfehlung), „okay“ (geht, aber besser anderswo), bis „—“ (nicht sinnvoll).

Technik / Modell	Flux	Midjourney	Nano Banana 2	Seedream 4	SDXL	Ideogram	Qwen Image
Seed-Locking	stark	okay	stark	stark	stark	stark	stark
Reference-Image	okay (via fal i2i)	stark (`--cref`)	stark (nativ)	stark (Identity Preservation)	okay (via IP-Adapter)	stark (Character Mode)	okay (i2i)
LoRA-Training	stark (Standard)	— (geschlossenes System)	— (geschlossenes System)	— (geschlossenes System)	stark (Standard)	—	stark (selbst hostbar)
Face-Swap / Inpainting	stark (ComfyUI)	okay (extern)	okay (extern)	okay (extern)	stark (ComfyUI)	okay (extern)	stark (ComfyUI)
ControlNet Face	stark	—	—	—	stark	—	stark

Was die Matrix dir auf einen Blick sagt:

Flux + SDXL + Qwen sind die „Voll-Stack“-Modelle: jede Technik ist anwendbar, weil du Zugriff auf das Modellgewichte hast und in ComfyUI alles bauen kannst.
Midjourney + Ideogram sind geschlossene Systeme: Reference-Image ist die einzige ernsthafte Konsistenz-Methode, dafür funktioniert sie ohne jeden Setup.
Nano Banana 2 + Seedream 4 sind geschlossen, aber haben hervorragende Reference-Image-Funktionen — wer keine Lust auf ComfyUI hat, ist hier am besten aufgehoben.

Welches Modell überhaupt zu welchem Workflow passt, vergleichen wir im Detail im Artikel Die 7 besten KI-Bildmodelle für AI Influencer — dort findest du auch eine Pricing-Übersicht und Latenz-Benchmarks.

Copy-Paste-Prompts für Konsistenz

Hier ist eine kompakte Sammlung sofort einsetzbarer Prompts, jeweils mit dem Konsistenz-Hebel direkt eingebaut. Ersetze die Variablen in [eckigen Klammern] durch deine eigenen Werte.

Prompt 1 — Foundation-Shot (Studio, für Seed-Capture und Reference-Library)

Editorial studio portrait of a 24-year-old woman with [hair color] shoulder-length hair and 
soft freckles across the nose bridge, soft three-point studio lighting, neutral grey backdrop, 
medium close-up framing, 85mm portrait lens, confident relaxed gaze into camera, 
magazine-cover quality, natural skin texture with visible pores, no makeup-heavy look, 
shot on Hasselblad H6D-100c. Negative: plastic skin, extra fingers, deformed eyes, watermark, 
oversaturated, HDR look, beauty-filter retouch.

Prompt 2 — Midjourney mit `--cref` für eine zweite Szene

/imagine prompt: candid lifestyle portrait, same woman, sitting at a Berlin Altbau cafe 
window seat, soft afternoon light from camera-left, reading a paperback, holding an 
oat-milk cappuccino, 50mm lens, shallow depth of field, candid editorial mood 
--cref https://your-cdn.com/foundation.jpg --cw 80 --ar 4:5 --style raw --v 7

Prompt 3 — Nano Banana 2 mit Reference Image für Outdoor

Same person as in the reference image. Golden hour rooftop in Berlin Mitte, 
beige Acne Studios trench coat over a cream turtleneck, hands in pockets, 
looking off-camera to the right, soft wind in hair, 50mm lens, 
warm cinematic color grade, magazine quality, natural skin texture.
[Aspect ratio: 9:16, reference: foundation.jpg]

Prompt 4 — Seedream 4 mit Identity Preservation für Nacht-Szene

seedream.generate(
    prompt="A 24yo woman with auburn hair and freckles, walking through a Tokyo "
           "neon-lit alley at night, hands in pockets of an oversized denim jacket, "
           "shot on 35mm Cinestill 800T, neon reflections in puddles, "
           "cinematic atmosphere, sharp focus on subject",
    reference_image_url="https://your-cdn.com/foundation.jpg",
    identity_preservation_strength=0.88,
    seed=412598,
    size="1080x1920",
)

Prompt 5 — Flux mit LoRA für skalierten Output

aitanaXX woman with auburn hair, sitting cross-legged on a cream couch in a Berlin loft, 
afternoon light from large warehouse windows, beige cashmere sweater and dark jeans, 
holding a hardcover book, 35mm lens, magazine editorial quality, 
shot on Kodak Portra 400 film, natural skin texture with visible pores.

Negative: plastic skin, extra fingers, deformed eyes, watermark, oversaturated, 
HDR look, blurry, low resolution, multiple people.

# LoRA load config
loras:
  - path: aitanaXX-v3.safetensors
    scale: 0.92
seed: 412598
guidance_scale: 3.5
steps: 30

Prompt 6 — Ideogram Character Reference für Magazin-Cover

Editorial magazine cover layout, "VOGUE BERLIN" masthead in white serif at top, 
featuring [character] with auburn hair styled in a low bun, beige Helmut Lang turtleneck, 
soft studio light from front-right, 35mm portrait lens, headline below masthead 
reads "DIE NEUE STILLE" in tall sans-serif, small subline "Aitana Lopez, im Gespräch", 
clean editorial typography, magazine paper grain.
[Character Reference: foundation.jpg, Strength: 82]

Prompt 7 — Negativ-Prompt-Block (universell für SDXL & Flux)

plastic skin, waxy skin, extra fingers, deformed hands, mutated hands, 
deformed eyes, asymmetric eyes, lazy eye, watermark, signature, text on image, 
oversaturated, HDR look, beauty-filter retouch, airbrushed skin, doll-like face, 
uncanny valley, multiple people, twins, two faces, lowres, blurry, low quality, 
extra limbs, missing limbs, jpeg artifacts.

Prompt 8 — Pose-Anker, um Drift in Action-Shots zu reduzieren

[character], standing in a yoga warrior-two pose, left foot forward bent at the knee, 
right leg extended back straight, arms outstretched parallel to the floor, 
side profile to camera, head turned toward the front hand, gaze focused, 
morning light streaming through tall studio windows from camera-right, 
hardwood floor, 50mm lens, sharp focus on the body silhouette, 
natural lifestyle photography aesthetic.

Diese acht Prompts decken die häufigsten Konsistenz-Szenarien ab. Für die nächste Ebene — modulare Outfit-, Pose- und Lichtbausteine — verweisen wir auf die Prompt-Bibliothek für KI-Influencer (Hauptpillar), die über 40 modulare Bausteine enthält, mit denen du den Identitätskern oben kombinieren kannst.

Die 7 häufigsten Konsistenz-Fehler

Wenn ein Charakter über mehrere Posts hinweg „anders aussieht“, ist die Ursache fast immer einer der folgenden sieben Fehler. In der Reihenfolge, wie oft wir sie in Beratungs-Calls sehen:

1. Extreme-Winkel-Drift. Du hast deine Foundation in Frontalansicht aufgenommen. Sobald du den Charakter in 3/4-Profil oder volles Profil bringst, driftet die Nasenform, weil das Modell keine 3D-Daten der Person hat. Lösung: Erstelle dein Foundation-Set bereits mit drei Winkeln — Frontal, 3/4, Profil. Speichere alle drei als Referenz-URLs für Midjourney --cref (mehrere Referenzen erlaubt) oder ins LoRA-Trainingsset.

2. Lighting-Drift. Studio-Foundation, dann harte Sonne von rechts unten. Das Modell verändert Hauttöne, Augenfarbe scheint anders, Sommersprossen verschwinden. Lösung: Wähle Foundation-Lichtsetups, die mehrere Outdoor-Looks abdecken — z. B. weiches Frontlicht mit leichtem Schatten, das zu „afternoon golden“ und „indoor warm“ gleichermaßen passt.

3. Age-Drift. Du hast Foundation als 24-jährig generiert, dann driftet das Modell in einer Outdoor-Sport-Szene plötzlich zu „early 30s“ — meist, weil ein Adjektiv wie „athletic“ oder „experienced“ das Alter unbewusst anhebt. Lösung: Wiederhole das Alter im Prompt redundant — „24-year-old, mid-twenties, youthful“ — das hält Drift in Schach.

4. Ethnicity-Drift. Subtilster Fehler, am schwersten zu fangen. „auburn hair“ plus „Berlin Altbau“ plus implizite kulturelle Assoziationen drücken das Modell in einen sehr spezifischen Ethnizitäts-Korridor. Sobald du in eine Tokyo-Szene wechselst, drücken die kulturellen Assoziationen in die andere Richtung — und plötzlich hat dein Charakter leicht andere Gesichtsproportionen. Lösung: Definiere Ethnicity explizit („of Spanish-German heritage“ oder ähnlich) und wiederhole es in jedem Prompt.

5. Hair-Color-Shift. „Auburn“ kann von „kupferrot“ bis „warmes Mahagoni“ alles bedeuten. Über zehn Generierungen driftet die Farbe oft um 20%. Lösung: Nimm einen Hex-Code oder eine Markenfarbe — „auburn hair, shade #8E4A35, warm copper-brown“ — die Spezifik reduziert Drift drastisch.

6. Accessory-Drift. Dein Charakter hat in Foundation einen kleinen goldenen Ring am rechten Mittelfinger. Du nimmst diesen Ring nicht in jeden Prompt — das Modell vergisst ihn, fügt manchmal andere Ringe hinzu, vergisst andere Male alle Ringe. Lösung: Entweder Accessoires konsequent in jedem Prompt mitführen, oder im LoRA-Trainingsset gar nicht erst einbauen (sauberer).

7. Wardrobe-Drift in Stil-Serien. Du baust eine Beige-Capsule-Wardrobe für deinen Charakter auf, aber das Modell driftet bei „trench coat“ mal in Sand-Beige, mal in Camel, mal in Khaki. Über eine 10-Post-Serie wirkt es chaotisch statt kuratiert. Lösung: Definiere drei bis fünf „Signature Pieces“ mit präzisen Farbangaben und nutze sie konsequent in den Prompts — am besten als gespeicherte Prompt-Module.

Wer diese sieben Fehler systematisch eliminiert, hat 90% der Konsistenz-Probleme im Griff. Die letzten 10% werden durch die Workflow-Routine unten gelöst.

Workflow: Vom Foundation-Shot zum 100-Image-Dataset

Hier der konkrete Sieben-Schritt-Plan, den wir in der Praxis nutzen, um von „ich will einen KI-Influencer“ zu „ich habe 100 konsistente Bilder im Archiv“ zu kommen. Plan-Horizont: 5–7 Tage echte Arbeitszeit, verteilt über 2–4 Wochen, je nach LoRA-Training-Geschwindigkeit.

Schritt 1 — Foundation-Brainstorm und Charakter-Spec. Lege schriftlich fest: Alter, Ethnizität, Haarfarbe (mit Hex-Code), Augenfarbe, prägende Merkmale (Sommersprossen, kleine Narbe, Muttermal, asymmetrisches Lächeln), Körpergröße, ungefähre Postur. Das wird dein Spec-Sheet, das du in jeden Prompt aus dem Gedächtnis ziehen kannst. Diese Vorarbeit verhindert die Hälfte aller späteren Drift-Probleme.

Schritt 2 — Foundation-Generierung mit Seed-Lock. Generiere in deinem präferierten Modell (Flux oder Seedream 4 sind unsere Empfehlung) zwanzig Foundation-Versionen mit verschiedenen Seeds. Picke das Bild, in dem das Gesicht am stärksten „klickt“ — also wo Identität und Wiedererkennbarkeit zusammenkommen. Notiere den Seed.

Schritt 3 — Foundation-Erweiterung auf drei Winkel. Nimm dein Foundation-Bild, lade es als Reference Image hoch (Nano Banana 2 oder Seedream 4). Generiere drei zusätzliche Bilder: 3/4-Profil rechts, 3/4-Profil links, volles Seitenprofil. Damit hast du jetzt vier Winkel als Referenz-Set.

Schritt 4 — Reference-Image-Phase (Bilder 5–20). Nutze Midjourney --cref oder Nano Banana 2 mit dem Foundation-Bild, um 15–20 zusätzliche Szenen zu generieren: drei Licht-Varianten (Tageslicht, Studio, golden hour), drei Outfit-Varianten, drei Pose-Varianten. Sortiere streng — behalte nur die, in denen die Identität klar erhalten ist. Tendenziell wirst du 30–40% der Generierungen verwerfen, das ist normal.

Schritt 5 — LoRA-Training (optional, ab Skalierungsbedarf). Mit jetzt 20+ konsistenten Bildern hast du ein sauberes Trainingsset. Lade es auf Replicate, fal.ai oder RunPod hoch, trainiere ein Flux- oder SDXL-LoRA. Dauer: 30–90 Minuten. Kosten: 1–6 US-Dollar. Output: eine .safetensors-Datei. Details im LoRA-Training-Guide.

Schritt 6 — Skalierte Generierung (Bilder 21–100+). Ab hier nutzt du primär LoRA in Flux. Du brauchst nur noch Prompts mit deinem Trigger-Token zu schreiben — die Identität sitzt automatisch. Generiere in Sessions zu je 20–30 Bildern, sortiere weiterhin streng, baue dir thematische Mini-Serien (Sommer-Outfits, Reise-Serie, Café-Routine).

Schritt 7 — Routine etablieren und Quality-Gate. Lege dir einen Quality-Gate-Checkliste an: Stimmt die Augenfarbe? Stimmt die Hex-Haarfarbe innerhalb von ±5%? Stimmen Accessoires aus dem Foundation-Spec? Sommersprossen erkennbar? Pose natürlich? Nur was alle Punkte passiert, geht ins Live-Archiv. Was Quality-Gate nicht passiert, wird verworfen oder per Face-Swap-Fallback nachgebessert.

Wer diesen Workflow zweimal durchzieht, hat danach eine konsistente Charakter-Pipeline, die auch unter Zeitdruck stabil läuft. Pro-Tipp: Das Spec-Sheet aus Schritt 1 wird dein wichtigstes Dokument — speichere es lokal, versioniere es, denn ein KI-Influencer kann auch entwickelt werden (neue Haarfarbe nach 6 Monaten, neue Wardrobe-Saison) und das funktioniert nur, wenn du die „Ursprungsversion“ sauber dokumentiert hast.

Schluss: Wähle die Technik nach deinem Skalierungs-Schritt

Charakter-Konsistenz ist kein einzelner Trick, sondern ein Stack aus fünf Techniken, die du je nach Skalierungsbedarf kombinierst. Die Entscheidungslogik in einem Satz: Bei wenigen Bildern reicht Reference-Image, bei vielen Bildern brauchst du LoRA, bei Sonderfällen ergänzt du Face-Swap oder ControlNet.

Konkret:

Erste 5 Bilder — Seed-Locking und ein Foundation-Shot, an dem du die Charakter-Spec verfeinerst.
Bilder 5–50 — Reference-Image-Methoden in Midjourney (--cref), Nano Banana 2 oder Seedream 4.
Ab Bild 50 — LoRA-Training in Flux oder SDXL — der Punkt, an dem sich der Trainingsaufwand auszahlt.
Sonderfälle — Face-Swap für extreme Posen, ControlNet Face für maximale Kontrolle in ComfyUI-Workflows.

Welches Bildmodell zu welchem Schritt passt, vertieft die parent pillar Prompt-Bibliothek — dort steht die volle Prompt-Matrix für sechs Modelle nebeneinander, die du als direkten Anknüpfungspunkt nach diesem Konsistenz-Guide nutzen kannst. Wenn du gerade erst startest und noch nicht entschieden hast, in welches Modell du investierst, ist der Vergleich der 7 besten KI-Bildmodelle der schnellste Weg zu einer informierten Entscheidung. Und wenn du den nächsten Schritt — LoRA-Training — angehst, führt der vollständige LoRA-Training-Guide dich Schritt für Schritt von der Datenset-Vorbereitung bis zum ersten Generierungslauf.

Das Ziel am Ende dieses Stacks: ein KI-Influencer, dessen Gesicht über tausend Bilder hinweg dasselbe bleibt — und der dadurch die Voraussetzung erfüllt, an der die meisten Hobby-Accounts scheitern.

new faces

Noch verfügbar!

Regina

Noch verfügbar!

Alina

Noch verfügbar!

Kylie

Marketing Newsletter

Zugang zu exklusiven Angeboten und Rabatten

Benachrichtung bei neuen KI-Influencern

Praxisnahe Tipps für deine virtuelle Influencer Karriere

Double-Opt-In und DSGVO (du erhältst im Anschluss noch eine E-Mail, um die Anmeldung zu bestätigen). Mit dem Absenden dieses Formulars stimmen Sie der Verarbeitung der hier eingegebenen Daten zu.

Charakter-Konsistenz bei KI-Influencern: Der komplette Guide (2026)

Warum Konsistenz so schwer ist — und warum es zählt

Die 5 Techniken im Überblick

Technik 1 — Seed-Locking: Wenn dasselbe Rauschen reicht

Code-Beispiele

Pro / Contra

Technik 2 — Reference-Image-Methoden: Der schnellste Workflow

Midjourney --cref: Der Klassiker

Nano Banana 2 Reference Image: Native Bild-zu-Bild

Seedream 4 Identity Preservation: Für Asiens beste Identitätskontrolle

Ideogram Character Mode: Für Brand-Storytelling

Reference-Image: Pro / Contra

Technik 3 — LoRA-Training: Der Gold-Standard

Technik 4 — Face-Swap & Inpainting: Wenn nichts anderes klappt

Technik 5 — ControlNet Face Reference: Für Pro-Workflows in ComfyUI

Die Konsistenz-Matrix: Welche Technik für welches Modell

Copy-Paste-Prompts für Konsistenz

Prompt 1 — Foundation-Shot (Studio, für Seed-Capture und Reference-Library)

Prompt 2 — Midjourney mit --cref für eine zweite Szene

Prompt 3 — Nano Banana 2 mit Reference Image für Outdoor

Prompt 4 — Seedream 4 mit Identity Preservation für Nacht-Szene

Prompt 5 — Flux mit LoRA für skalierten Output

Prompt 6 — Ideogram Character Reference für Magazin-Cover

Prompt 7 — Negativ-Prompt-Block (universell für SDXL & Flux)

Prompt 8 — Pose-Anker, um Drift in Action-Shots zu reduzieren

Die 7 häufigsten Konsistenz-Fehler

Workflow: Vom Foundation-Shot zum 100-Image-Dataset

Schluss: Wähle die Technik nach deinem Skalierungs-Schritt

new faces

Marketing Newsletter

Midjourney `--cref`: Der Klassiker

Prompt 2 — Midjourney mit `--cref` für eine zweite Szene