Irgendwann reicht es nicht mehr. Du hast deinen KI-Charakter mit --cref-Tricks in Midjourney aufgebaut, mit PuLID-Referenzbildern in Nano Banana stabilisiert, mit Seedream-Identity-Preservation feingeschliffen — und je länger der Feed wird, desto stärker driftet das Gesicht. Zwischen Bild 47 und Bild 112 ist deine Influencerin um zwei Jahre gealtert, hat eine andere Nasenform und plötzlich grüne statt graue Augen. Das Problem skaliert nicht.
Die Antwort heißt LoRA. Mit einem gut trainierten Low-Rank-Adapter zwingst du das Basismodell dazu, genau dein Gesicht zu reproduzieren — nicht ein ähnliches, nicht ein paar-Tage-altes, sondern dasselbe. In rund 4 Stunden und für ~10 Euro auf Civitai oder fal.ai (oder komplett kostenlos lokal mit FluxGym auf einer 12-GB-GPU) trainierst du ein Modell, das deine KI-Influencerin auf Abruf produziert: in jeder Pose, in jedem Outfit, in jedem Licht. Und weil ein LoRA nur 50–200 MB groß ist, kannst du es überall mitnehmen — in ComfyUI, in Flux Forge, in der fal.ai-API, auf Civitai. Die Prompts, mit denen du es dann ansteuerst, kommen aus derselben Prompt-Bibliothek für KI-Influencer, die du heute schon ohne LoRA nutzt — nur erweitert um ein Trigger-Word vorne.
Dieser Guide zeigt dir die vier realistischen Trainings-Pfade, das einzig wichtige Asset (den Datensatz), zwei vollständige Schritt-für-Schritt-Walkthroughs (FluxGym lokal, Civitai cloud) und alles, was zwischen Klick auf „Start Training“ und einer brauchbaren .safetensors-Datei passiert.
Was LoRA überhaupt ist — ohne Buzzword-Bullshit
LoRA steht für Low-Rank Adaptation. Das klingt akademisch, ist aber im Kern eine sehr pragmatische Idee: Anstatt das gesamte Basismodell (Flux Dev hat 12 Milliarden Parameter, SDXL rund 3,5 Milliarden) neu zu trainieren, wenn du ihm einen neuen Charakter beibringen willst, trainierst du nur eine winzige Zusatzschicht mit. Diese Zusatzschicht ist mathematisch eine niedrig-dimensionale Approximation der Änderungen, die nötig wären, um den Charakter zu erzeugen — daher „Low-Rank“.
In der Praxis bedeutet das drei Dinge:
- Die Trainings-Datei ist klein: 50–200 MB statt der 24 GB eines Full-Fine-Tunings.
- Das Training ist machbar: wenige Stunden auf einer Consumer-GPU oder einem Cloud-Slot, nicht Wochen auf einem 8x-A100-Cluster.
- Die Datei ist portabel: Du lädst sie zur Generation-Zeit zusätzlich zum Basismodell, verschickst sie, teilst sie, lädst sie auf Civitai hoch — ohne jemals das Basismodell mitzuschicken.
Der Unterschied zum Full-Fine-Tuning ist ökonomisch entscheidend. Ein voller Fine-Tune des Flux-Dev-Modells kostet bei aktuellen GPU-Preisen vier- bis fünfstellige Beträge und produziert eine 24-GB-Datei, die du weder hochladen noch sinnvoll weitergeben kannst. Ein LoRA kostet 2–10 Euro im Cloud-Training oder den Strom für 1–3 Stunden RTX-4090-Zeit zuhause — und produziert eine Datei, die du in einen GitHub-Release schieben kannst.
Anders gesagt: LoRA ist das einzige realistische Trainings-Verfahren für Solo-Creator und kleine Studios. Alles andere ist akademische Theorie oder Unternehmens-Budget.
Wann du LoRA wirklich brauchst (und wann nicht)
LoRA-Training ist mächtig, aber nicht immer der richtige Schritt. Eine ehrliche Faustregel nach Bildmenge:
- Du hast 0–50 Bilder im Feed? Brauchst du noch kein LoRA. Nutze Referenzbild-Methoden — Midjourney
--cref, Nano Banana Reference, Seedream Identity Preservation, PuLID in ComfyUI. Diese Verfahren erreichen 70–85 % Konsistenz und reichen für die ersten Wochen. Eine vollständige Übersicht aller Konsistenz-Techniken (ohne Training) findest du in unserem Charakter-Konsistenz-Guide. - Du planst 50–100 Bilder? Grenzfall. Wenn dein Charakter sich nicht stark verändern soll und du in einem Modell bleibst, kommst du noch mit Referenzbild-Methoden durch. Sobald du mehrere Modelle (Flux für Studio-Shots, SDXL für Lifestyle, Qwen für Schnellproduktion) nutzt, lohnt sich LoRA, weil du nicht in jedem Modell die Identität neu kalibrieren musst.
- Du planst mehr als 100 Bilder oder schon 6+ Monate Feed? Hier ist LoRA Pflicht. Die Drift-Probleme der Referenzbild-Methoden werden über die Zeit unkontrollierbar, und die Inkonsistenz zwischen Modellen wird zum Brand-Problem.
- Du verkaufst Content (Fanvue, Patreon, OnlyFans)? Sofort LoRA. Käufer merken sich Gesichter besser als jedes andere Detail.
Es gibt einen Punkt diminishing returns: Wer schon 90+ % Konsistenz mit PuLID + Referenzbildern erreicht, gewinnt mit einem ersten LoRA-Versuch oft nur 3–5 Prozentpunkte dazu. Lohnt sich trotzdem, weil ein LoRA auch in API-Workflows (fal.ai, Replicate) funktioniert, in denen du gar keine Referenzbilder mehr hochladen musst.
Die 4 Trainings-Pfade im Vergleich
Es gibt 2026 vier ernstzunehmende Wege, ein LoRA zu trainieren. Wir gehen jeden einzeln durch.
FluxGym (lokal, GPU 12 GB+)
FluxGym ist die Web-UI auf Top von Kohya, die das Flux-LoRA-Training für Normalsterbliche zugänglich macht. Gradio-Interface, ein paar Dropdowns, ein Upload-Feld für Bilder — fertig. Du brauchst eine GPU mit mindestens 12 GB VRAM (RTX 3060 12GB reicht für FP8-Training, RTX 3090 oder 4090 für entspanntes BF16).
Pro: Kostenlos, volle Kontrolle, kein Vendor-Lock-In, dein Datensatz verlässt nie deine Festplatte. Wenn du eh ComfyUI lokal nutzt, ist die Lernkurve flach.
Contra: Du brauchst die Hardware. 12-GB-Training dauert auf einer RTX 3060 für ~20 Bilder rund 2,5 Stunden; auf einer RTX 4090 sind es 30–60 Minuten.
Kohya_ss (lokal, advanced)
Kohya_ss ist die Mutter aller LoRA-Trainer aus der SDXL-Welt. Seit Q4 2025 mit vollem Flux-Support. Du steuerst hier jeden Hyperparameter — Network-Rank, Network-Alpha, Optimizer, Noise-Offset, Captions-Dropout. Wenn du verstehen willst, warum dein LoRA over- oder underfitted, ist das dein Tool. Wenn du nur ein gutes Ergebnis willst, ist FluxGym schneller.
Pro: Maximale Kontrolle. Stabile Trainingsläufe. Standard im Civitai-Community-Tooling.
Contra: Steilste Lernkurve. Die Web-UI ist ein dichter Dropdown-Wald.
Civitai Online-Trainer
Civitai ist der größte Marktplatz für offene LoRAs (10.000+ Flux-LoRAs allein) und betreibt einen integrierten Online-Trainer. Du lädst 15–30 Bilder hoch, beschriftest sie im Browser, zahlst über Buzz-Credits rund 2–5 Euro pro Trainingslauf und bekommst nach 30–60 Minuten eine .safetensors-Datei zum Download. Optional veröffentlichst du das LoRA direkt auf Civitai — was ein Distributions-Kanal sein kann (siehe Deployment-Sektion unten).
Pro: Keine Hardware nötig. Günstig. UI ist Anfänger-tauglich.
Contra: Deine Trainings-Bilder liegen kurzzeitig auf Civitai-Servern. Du hast weniger Kontrolle über Hyperparameter als bei FluxGym/Kohya.
Replicate / fal.ai Cloud LoRA
fal.ai und Replicate bieten verwaltete LoRA-Trainings-Endpoints. Bilder hochladen, Trigger-Word setzen, ~2–10 Euro zahlen, nach 15–30 Minuten LoRA downloaden. Der schnellste Pfad, wenn du sowieso über deren API generierst — du speicherst das fertige LoRA in deren Storage und referenzierst es zur Inferenz nur per URL.
Pro: Schnellster Weg. Kein Setup. Integration in API-Workflows.
Contra: Pro Trainingslauf etwas teurer als Civitai. Lock-In in die jeweilige Plattform für die Inferenz, wenn du es bequem haben willst.
Empfehlung nach Persona
Eine Faustregel, die wir mit Creator-Studios validiert haben:
- Hobbyist / Erstes LoRA: Civitai Online-Trainer. Niedrigste Hürde, niedrigste Kosten, schnelles Erfolgserlebnis.
- Pro-Solo-Creator (eigene GPU): FluxGym lokal. Du wirst über die Zeit fünf bis zwanzig LoRAs trainieren, da rechnet sich der Setup-Aufwand.
- Pro-Solo-Creator (keine GPU): fal.ai. Lokales Generieren ohne GPU ist eh kein Thema, also bleib in der API-Welt.
- Agentur / Studio: Kohya_ss lokal + fal.ai für Burst-Loads. Maximale Kontrolle für die Brand-LoRAs, Cloud-Kapazität für Kunden-LoRAs.
Der Datensatz: Das wichtigste Element
Hier liegt der Hebel. Das beste Trainings-Setup der Welt produziert mit einem schlechten Datensatz ein schlechtes LoRA. Das schlechteste Setup mit einem exzellenten Datensatz produziert oft noch ein brauchbares LoRA. Das Verhältnis ist 80/20 zugunsten der Daten.
Bildanzahl
15–30 Bilder ist das Sweet Spot. Weniger als 15 produziert under-trained, einseitige LoRAs (immer nur Frontal-Porträts, weil das Modell nichts anderes gesehen hat). Mehr als 30 bringt fast keinen Qualitätsgewinn, dafür längere Trainings-Zeit. Wenn du erst zwei Wochen Erfahrung hast: starte mit 18–22 Bildern.
Auflösung
Mindestens 1024×1024 px für Flux und SDXL. Höher schadet nicht — die Trainer skalieren beim Bucketing automatisch herunter. Verwende keine 512er-Bilder mehr; das ist 2023er-Stable-Diffusion-1.5-Logik und kostet dich heute Qualität.
Vielfalt: Das unterschätzte Asset
Ein häufiger Anfängerfehler: 20 Selfies aus dem gleichen Café, gleiche Pose, gleiche Beleuchtung. Was passiert? Dein LoRA lernt nicht den Charakter — es lernt das Café. Bei der ersten Generation in einem Studio-Setting fällt die Konsistenz auf 40 %.
Was du brauchst, ist eine kontrollierte Mischung:
- Posen: 4–5 Close-Ups, 5–6 Medium-Shots, 4–5 Full-Bodys, 2–3 Profil-Ansichten.
- Winkel: nicht alle frontal. Mindestens 4 Bilder mit leichter Drehung (3/4-Profil), 2 mit klarem Profil.
- Licht: mindestens 3 unterschiedliche Licht-Setups (Tageslicht, Studio, Golden Hour).
- Ausdruck: nicht 20× das gleiche Lächeln. Mische neutral, lächelnd, ernst, lachend, in Bewegung.
- Outfits: 2–4 verschiedene Outfits. Nicht alle. Du willst, dass das LoRA das Gesicht lernt, nicht die Jacke.
Wichtig: Halte den Hintergrund variabel und niemals dominant. Wenn 15 von 20 Bildern den gleichen Hintergrund haben, lernt das LoRA den Hintergrund mit. Drittel-weiß-/Plain-Hintergrund, Drittel-natürliches-Setting, Drittel-Outdoor ist eine gute Verteilung.
Captioning: Wie das LoRA verstehen lernt
Jedes Trainingsbild bekommt eine Text-Datei mit dem gleichen Namen. image_01.jpg braucht image_01.txt. Diese Caption beschreibt das Bild — außer die Eigenschaften, die das LoRA selbst lernen soll.
Das ist der wichtigste Kniff: Was du in der Caption beschreibst, lernt das LoRA nicht als seinen Kern, sondern als etwas, das per Prompt änderbar ist. Was du nicht beschreibst, internalisiert das LoRA.
Ein Beispiel für die Caption von Bild 01 deines Charakter-LoRAs (Trigger-Word: lara_v1):
lara_v1, a woman with shoulder-length auburn hair, wearing a black turtleneck sweater, sitting at a wooden desk, soft natural light from the window, looking at the camera, neutral expression, medium shot
Was hier passiert: Wir nennen das Trigger-Word (lara_v1) zuerst. Dann beschreiben wir Outfit, Setting, Licht, Pose, Ausdruck, Shot-Typ — alles das, was nicht zur Identität gehört, sondern variabel sein soll. Wir beschreiben nicht: Gesichtsform, Augenfarbe, Hautton, prägende Gesichtszüge. Genau diese Eigenschaften soll das LoRA mit dem Trigger-Word verknüpfen.
Ein häufiger Fehler ist, das Gegenteil zu tun — die Identität ausführlich zu beschreiben. Wer „lara_v1, blonde hair, blue eyes, oval face, freckles“ schreibt, lernt dem LoRA bei, dass lara_v1 austauschbar mit „blonde hair, blue eyes, oval face“ ist. Im Prompt kannst du dann „lara_v1 with brown hair“ schreiben und das LoRA gehorcht — was du eigentlich verhindern wolltest.
Für 20 Bilder schreibst du 20 Captions. Tools wie WD14-Tagger oder Florence-2 können erste Drafts generieren, aber du musst sie immer per Hand nachbearbeiten. Plane 30–45 Minuten dafür ein.
Wo bekommt man die Bilder her?
Wenn dein Charakter noch nicht existiert, ist das ein Henne-Ei-Problem: Du brauchst Bilder zum Training, aber du hast den Charakter noch nicht. Lösung: Generiere den Trainings-Datensatz mit Referenzbild-Methoden.
Der Standard-Workflow:
- Erzeuge ein erstes Charakter-Bild mit Midjourney
--cref, Nano Banana 2 Reference oder Seedream 4 Identity Preservation. - Verwende dieses Bild als Referenz für weitere 20–30 Bilder mit unterschiedlichen Posen, Outfits, Lichtsetups — pro Bild ein bis zwei Generationen, dann Auswahl der besten.
- Cull aggressive: behalte nur die 20–25 Bilder, in denen das Gesicht maximal konsistent zur Referenz aussieht.
- Captioniere diese 20–25 Bilder.
- Trainiere das LoRA.
Diese Pipeline ist im Charakter-Konsistenz-Guide im Detail beschrieben — der Guide ist quasi der erste Schritt vor diesem Guide, wenn du noch keinen Datensatz hast.
Schritt-für-Schritt: LoRA-Training mit FluxGym
Wir nehmen den Standard-Pfad: Du hast eine RTX-3090/4090 (oder eine Cloud-GPU via RunPod) und 20 vorbereitete, captionierte Bilder.
Schritt 1: Installation
FluxGym installiert sich am bequemsten via Pinokio (One-Click) oder direkt aus dem Repo. Wir gehen den manuellen Weg, weil du den eh kennen solltest:
# Klone das Repo
git clone https://github.com/cocktailpeanut/fluxgym
cd fluxgym
# Lege ein Python-Venv an
python -m venv .venv
source .venv/bin/activate # Linux/macOS
# .venv\Scripts\activate # Windows PowerShell
# Installiere Dependencies (~5 GB Downloads)
pip install -r requirements.txt
# Lade die Flux Dev Base Weights (FP8 für 12-GB-Karten, BF16 für 24-GB-Karten)
mkdir -p models/unet
cd models/unet
wget https://huggingface.co/black-forest-labs/FLUX.1-dev/resolve/main/flux1-dev.safetensors
cd ../..
# Start
python app.py
Die App lauscht standardmäßig auf http://localhost:7860 — öffne sie im Browser.
Schritt 2: Dataset-Vorbereitung
FluxGym erwartet einen Ordner mit Bildern und gleichnamigen .txt-Dateien:
dataset/lara_v1/
├── 01.jpg
├── 01.txt
├── 02.jpg
├── 02.txt
├── ...
├── 20.jpg
└── 20.txt
Wenn du noch keine Captions hast, kannst du FluxGym sie generieren lassen (Auto-Caption-Knopf in der UI nutzt Florence-2), aber überarbeite sie händisch — siehe Captioning-Abschnitt oben.
Schritt 3: Konfiguration
In der FluxGym-UI gibst du ein:
- LoRA Name:
lara_v1— wird auch als Default-Trigger-Word vorgeschlagen. - Trigger Word:
lara_v1— wähle etwas rare-but-pronounceable. Mehr dazu im Trigger-Word-Abschnitt unten. - Base Model:
flux-dev(oderflux-schnell, falls du eine SDXL-LoRA-Equivalent in 8 Schritten willst). - VRAM Mode:
12Gfür RTX 3060/4070,16Gfür RTX 4080,20Gfür RTX 4090.
Die wichtigsten Hyperparameter, mit Empfehlungen für 20 Bilder:
Repeat trains per image: 10
Max train epochs: 16
Total training steps: ~3200 (= 20 images × 10 repeats × 16 epochs)
Learning rate: 1e-4
Network rank (dim): 16
Network alpha: 8
Save every N epochs: 4
Was jeder Wert bedeutet:
- Repeats: Wie oft jedes Bild pro Epoche gesehen wird. 10 ist Standard für 20 Bilder.
- Epochs: Wie viele volle Durchläufe durch den Datensatz. 16 ist ein guter Mittelwert; mehr kann zu Overfitting führen.
- Learning Rate: Wie groß die Update-Schritte sind.
1e-4ist für Flux der etablierte Default;5e-5ist vorsichtiger (gut bei kleinen Datensätzen),2e-4aggressiver (riskanter). - Network Rank: „Größe“ des LoRA. 16 ist Standard für Charakter-LoRAs; 8 für stilistische LoRAs; 32 für sehr komplexe Konzepte.
- Network Alpha: Skaliert die Wirkung des Rank. Konvention: Alpha = Rank / 2.
Schritt 4: Training starten
Klick auf „Start Training“. FluxGym öffnet ein Log-Fenster. Du siehst Loss-Werte ungefähr alle 10 Steps und alle 4 Epochen eine Reihe Sample-Bilder, die das aktuell trainierte LoRA produziert.
Während des Trainings beobachte zwei Dinge:
- Loss-Kurve: Sollte stetig fallen und dann auf einem Plateau abflachen. Wenn sie schnell auf nahe 0 fällt: Overfitting droht. Wenn sie über 1.0 nicht fällt: Daten- oder Caption-Problem.
- Sample-Bilder: Ab Epoche 4–6 sollte das Gesicht erkennbar sein. Ab Epoche 10–12 stabil. Wenn es nach Epoche 12 noch immer driftet: Daten reichen nicht.
Schritt 5: Output
Du bekommst eine Datei lora_lara_v1_e16.safetensors im FluxGym-Output-Ordner. Optional Zwischen-Snapshots (_e04, _e08, _e12) — die sind Gold wert. Oft ist der _e12-Snapshot besser als die finale _e16, weil noch nicht overfitted.
# Kopiere die LoRA-Datei in deine ComfyUI-Installation
cp outputs/lara_v1/lora_lara_v1_e16.safetensors \
~/ComfyUI/models/loras/
# Oder für lokales Forge-Setup
cp outputs/lara_v1/lora_lara_v1_e16.safetensors \
~/stable-diffusion-webui-forge/models/Lora/
Damit hast du dein eigenes Flux-LoRA. Wir testen es gleich.
Schritt-für-Schritt: LoRA-Training mit Civitai
Für Creator ohne lokale GPU oder ohne Lust auf Setup-Pfriemelei ist Civitai der schnellste Weg.
Schritt 1: Upload des Datasets
Geh auf civitai.com, logge dich ein, klicke auf „Train a LoRA“ (im Train-Menü). Du landest in einer 4-Schritt-UI.
Schritt 1 (Upload): Ziehe deine 15–30 Bilder rein. Civitai akzeptiert JPEG, PNG, WEBP bis 8K. Während des Uploads erkennt es automatisch die Auflösung und schlägt das Bucketing vor.
Schritt 2: Captions ergänzen
Civitai generiert automatisch Captions mit einem BLIP/Florence-Hybrid-Modell. Du siehst sie als Liste pro Bild und kannst editieren. Mach es. Die Auto-Captions sind oft zu generisch („a woman standing in a room“) und enthalten manchmal Falschangaben (Haarfarbe verkehrt, Outfit ignoriert). 10–15 Minuten Caption-Pflege machen einen messbaren Qualitätsunterschied.
Halte dich an die gleichen Regeln wie bei FluxGym: Beschreibe alles außer der Identität, nenne das Trigger-Word zuerst.
Schritt 3: Trigger-Word festlegen
Im zweiten UI-Schritt setzt du das Trigger-Word. Civitai erlaubt einen oder mehrere; nimm einen. Wähle etwas, das nicht im Vokabular des Basismodells vorkommt — lara_v1 ist okay, lara wäre schon riskant (Tomb-Raider-Bias).
Schritt 4: Training starten
Wähle Base-Model (Flux Dev für KI-Influencer-Charaktere — SDXL nur wenn du legacy ComfyUI-Workflows hast). Der Civitai-Trainer hat sinnvolle Defaults; ändere nur Rank/Alpha wenn du weißt, was du tust.
Kosten: 2.000–4.000 Buzz pro Training-Run, was ungefähr 2–4 Euro entspricht. Du kannst Buzz direkt im Account aufladen.
Klick „Start“. Civitai zeigt dir eine Queue-Position; in der Regel startet das Training innerhalb von 1–5 Minuten und läuft 30–60 Minuten.
Schritt 5: Download und Test
Wenn das Training durch ist, bekommst du eine E-Mail oder eine Notification. Im Civitai-Dashboard gibt es zwei Aktionen:
- Download — du holst dir die
.safetensors-Datei und nutzt sie lokal in ComfyUI / Forge. - Publish to Civitai — du veröffentlichst das LoRA direkt auf der Plattform. Mehr dazu im Deployment-Abschnitt.
Zwischen FluxGym und Civitai gibt es keine Qualitätsunterschiede bei korrektem Setup. Civitai ist 80 % schneller im Setup, FluxGym 100 % günstiger im 10. Trainingslauf.
Trigger-Words: Wie du dein LoRA wirklich aktivierst
Das Trigger-Word ist der Anker, der das LoRA im Prompt aktiviert. Ohne das Trigger-Word ist dein LoRA fast wirkungslos — und ein schlecht gewähltes Trigger-Word kann die LoRA-Wirkung halbieren.
Drei Regeln:
- Rare: Das Wort darf im Trainings-Vokabular des Basismodells nicht häufig vorkommen.
johnist katastrophal (Millionen Trainings-Beispiele).laraist riskant (Tomb-Raider-Assoziationen, blaue Augen, brünett).lara_v1ist sicher (das genaue Token gibt es nirgends). - Pronounceable: Du wirst es 1000-mal tippen.
xkj42_blrist zwar maximal-rare, aber unpraktisch.lara_v1,mira_eve,tanja_studiosind brauchbar. - Versioned: Pack eine Version dran.
lara_v1,lara_v2. Wenn du in 3 Monaten ein verbessertes LoRA mit denselben Trainings-Bildern + 5 neuen trainierst, willst du beide nebeneinander testen können.
Trigger-Word im Prompt — Flux
Bei Flux setzt du das Trigger-Word an den Anfang und nutzt LoRA-Loader (in ComfyUI) oder die <lora:name:strength>-Syntax (in Forge):
lara_v1, a 24-year-old woman sitting at a window seat in a Berlin Altbau café,
soft afternoon light from the left, medium close-up, 85mm portrait lens,
shallow depth of field, candid editorial mood, reading a paperback,
shot on Kodak Portra 400, magazine-grade skin texture, natural pores visible
Bei der ComfyUI-Generation würde der entsprechende Workflow-Node Load LoRA heißen, mit Strength 0.8–1.0 für Charakter-LoRAs.
Trigger-Word im Prompt — SDXL
Bei SDXL nutzt du Komma-getrennte Tags und embeddest das LoRA über die <lora:>-Syntax:
<lora:lara_v1_sdxl:0.9> lara_v1, portrait, golden hour, studio lighting,
sharp focus on eyes, 85mm lens, depth of field, natural skin texture,
professional photography, detailed iris, catchlight in eyes
Negative: plastic skin, oversaturated, watermark, extra fingers,
deformed hands, doll-like, waxy, low quality
Wenn du mehrere LoRAs kombinierst (Charakter + Stil), achte auf die Summe der Strengths — über 1.5 wird das Bild oft instabil.
Testing & Iteration
Du hast deine .safetensors-Datei. Jetzt: ist das LoRA gut?
Der erste Test: 6 Variationen
Generiere mit dem frischen LoRA sechs Bilder mit minimalen Prompt-Variationen:
1. lara_v1, portrait, neutral background, studio lighting, 85mm
2. lara_v1, full body, walking in a park, golden hour
3. lara_v1, close-up, smiling, natural daylight
4. lara_v1, side profile, dramatic rim lighting, black background
5. lara_v1, three-quarter shot, sitting in a café, soft window light
6. lara_v1, fashion editorial, white wall, harsh studio light
Schau dir die sechs Bilder nebeneinander an. Drei Fragen:
- Identität: Ist es in allen sechs Bildern dieselbe Person? (Wenn nein → under-trained.)
- Variabilität: Sind Pose, Hintergrund, Licht wirklich unterschiedlich? (Wenn alles gleich aussieht → over-trained.)
- Naturlichkeit: Sehen die Bilder aus wie Fotos oder wie KI-Bilder? (Hauttextur, Augen, Hände prüfen.)
Häufige Failure Modes
- Under-trained: Gesicht driftet zwischen Bildern, Identität nicht stabil. → Mehr Epochs (von 16 auf 24) oder höhere LR (von 1e-4 auf 1.5e-4).
- Over-trained: LoRA reproduziert immer dieselbe Pose, Outfit, Hintergrund aus den Trainings-Bildern. → Fewer Epochs (von 16 auf 12) oder niedrigere LR, oder Daten-Diversität erhöhen.
- Bias-locked: LoRA macht den Charakter immer lächeln, immer in derselben Frisur, immer in derselben Bekleidungs-Range. → Trainings-Datensatz war zu einseitig. Captionen zurück gehen, mehr ausdrücken, was an Variation gewollt ist.
- Style-bleeding: LoRA produziert in jedem Bild denselben Foto-Stil (z. B. immer warm-getönt, immer Bokeh). → Trainings-Bilder waren stilistisch zu homogen. Mische Stile beim Aufbau des Datensatzes.
Die Strength-Achse
Wenn das LoRA grundsätzlich funktioniert, aber zu stark wirkt (Bilder sehen alle gleich aus), reduziere die LoRA-Strength in der Inferenz auf 0.6–0.8. Wenn es zu schwach wirkt (Identität driftet), geh auf 0.9–1.1. Über 1.2 selten sinnvoll — dann ist meist neu zu trainieren.
Deployment: Wo dein LoRA jetzt lebt
Du hast ein getestetes LoRA. Vier Wege, es zu nutzen:
In ComfyUI
Der Standardweg für Pro-Workflows. Lade die Datei in ComfyUI/models/loras/, ziehe einen Load LoRA-Node in deinen Workflow, verbinde Model und CLIP-Output mit dem Sampler. Strength 0.8–1.0, Trigger-Word an den Anfang des Prompts. Der vollständige PuLID-+-LoRA-Workflow ist im ComfyUI-Guide beschrieben.
In Flux Forge / Automatic1111
Wenn du Forge oder eine Forge-kompatible UI nutzt: Datei in models/Lora/ legen, im Prompt mit <lora:lara_v1:0.9> referenzieren:
<lora:lara_v1:0.9> lara_v1, portrait of a 24-year-old woman with auburn hair,
sitting at a window seat in a Berlin café, soft afternoon light, 85mm portrait lens,
shallow depth of field, magazine editorial style, shot on Kodak Portra 400
Forge ist UI-freundlicher als ComfyUI, kann aber komplexe Workflows nicht so gut. Für Pure-Prompt-zu-Bild-Pipeline ideal.
Via fal.ai / Replicate API
Wenn du das LoRA im Cloud-Workflow nutzen willst — und das willst du, sobald du mehr als 50 Bilder pro Woche generierst — lädst du es einmalig zu fal.ai oder Replicate hoch und referenzierst es per URL:
import fal_client
result = fal_client.run(
"fal-ai/flux-lora",
arguments={
"prompt": "lara_v1, portrait of a 24-year-old woman with auburn hair, sitting at a window seat in a Berlin café, soft afternoon light, 85mm portrait lens",
"loras": [
{
"path": "https://your-storage.example.com/lara_v1.safetensors",
"scale": 0.9
}
],
"image_size": "portrait_4_3",
"num_inference_steps": 28,
},
)
print(result["images"][0]["url"])
Vergleichbare Replicate-Calls funktionieren analog mit replicate.run("...") und extra_lora als Parameter.
Auf Civitai veröffentlichen
Veröffentlichst du das LoRA auf Civitai, wird es Teil der größten offenen LoRA-Bibliothek im Web. Vorteile: Sichtbarkeit, Buzz-Einnahmen aus Downloads, Reputation in der Creator-Community. Nachteile bei einem Charakter-LoRA: Du gibst dein KI-Modell-Gesicht in die Welt — jeder kann damit Inhalte erzeugen, die mit deinem Brand assoziiert werden könnten. Für Stil-LoRAs (Foto-Look, Beleuchtungs-Stil) eine Top-Distribution. Für Charakter-LoRAs, an denen dein Branding hängt, eher nicht veröffentlichen.
Falls du Midjourney als Hauptmodell nutzt: Schlechte Nachricht. Midjourney unterstützt keine LoRAs, weil das Modell closed-source ist und kein Inferenz-Hook für externe Gewichte existiert. Der nächstbeste Workflow dort ist --cref mit einem konsistenten Referenz-Bild — das ist im Midjourney-Guide erklärt. Wer LoRA-Training will, muss zu Flux, SDXL, Qwen oder ähnlichen Open-Weights-Modellen wechseln. Die Modell-Übersicht für AI Influencer hilft dabei, das richtige Basismodell für dein Training-Vorhaben auszuwählen.
Häufige Fragen (FAQ)
Kann ich LoRA für SDXL und Flux gleichzeitig nutzen?
Nein — ein LoRA ist immer für genau ein Basismodell trainiert. Ein Flux-LoRA funktioniert nicht in SDXL und umgekehrt. Wenn du beide Modelle in deiner Pipeline nutzt, musst du zwei LoRAs trainieren — denselben Datensatz, einmal als Flux-LoRA, einmal als SDXL-LoRA. Aufwand ist ~doppelt, das Ergebnis ist Modell-Portabilität.
Wie lange dauert ein LoRA-Training?
Hängt vom Pfad ab. Civitai und fal.ai: 15–60 Minuten pro Run. FluxGym auf RTX 4090: 30–60 Minuten für 20 Bilder. FluxGym auf RTX 3060 12 GB: 2–3 Stunden. Kohya_ss auf RTX 4090 mit Custom-Config: 30–90 Minuten je nach Settings. Plus 30–45 Minuten Caption-Pflege und Daten-Vorbereitung — das ist der Zeit-Sink, den die meisten unterschätzen.
Was kostet ein LoRA-Training?
- FluxGym lokal: Stromkosten. ~0,50 € pro Run auf einer RTX 4090.
- Kohya_ss lokal: Identisch.
- Civitai: ~2–4 € pro Run.
- fal.ai: ~3–6 € pro Run.
- Replicate: ~5–10 € pro Run.
Der wahre Kosten-Block ist die Trainings-Bild-Erstellung — wenn du die ersten 20 Bilder per Midjourney/Nano-Banana generierst, zahlst du dort 5–15 € für den brauchbaren Datensatz.
Funktioniert mein Flux-LoRA auch in Midjourney?
Nein. Midjourney ist closed-source und akzeptiert keine externen Gewichte. Wenn du Midjourney-Charakter-Konsistenz willst, musst du den --cref-Workflow nutzen — der ist im Midjourney-Guide Schritt für Schritt erklärt. Die Konsistenz liegt dort bei 70–85 %, gegen 90–95 % mit einem trainierten LoRA in Flux. Wenn LoRA-Workflows für dich Pflicht sind: weg von Midjourney, hin zu Flux oder Qwen Image.
Wie viele Bilder brauche ich wirklich?
15 ist das absolute Minimum für brauchbare Ergebnisse, 20–25 ist der Sweet Spot für Charakter-LoRAs, 30 ist obere Grenze ab der diminishing returns einsetzen. Stil-LoRAs (z. B. „im Stil von Filmkamera XY“) brauchen tendenziell mehr Bilder (40–80), Charakter-LoRAs weniger. Wer mit 8–10 Bildern startet, bekommt fast immer ein under-trained LoRA und verschwendet die Trainings-Kosten.
Darf ich kommerziell mit einem LoRA arbeiten?
Das hängt vom Basismodell und vom Datensatz ab.
- Flux Dev: Non-Commercial-Lizenz für das Basismodell. Black Forest Labs bietet kommerzielle Lizenzen über einen separaten Vertrag — Standard für ernsthafte Pro-Workflows. Flux Schnell ist Apache-2.0 und damit kommerziell offen.
- SDXL Base: CreativeML OpenRAIL-M, kommerziell nutzbar. Manche Forks (z. B. RealisticVision-Forks) haben strengere Lizenzen.
- Qwen Image: Apache-2.0, kommerziell offen.
- Dein Trainings-Datensatz: Du musst rechtmäßig Zugang zu den Bildern haben. Wenn der Charakter selbst KI-generiert ist, ist das in vielen Jurisdiktionen unkritisch. Wenn er auf echten Personen basiert: Vorsicht — Persönlichkeitsrechte sind unabhängig vom KI-Status.
Für eine ernsthafte Monetarisierungs-Pipeline (Fanvue, OnlyFans, Patreon) empfehlen wir den Flux-kommerziell-Lizenz-Weg oder Qwen — saubere Lizenz, klare Rechtslage, keine Nachfragen vom Plattform-Support.
Schluss + Call-to-action
LoRA-Training ist 2026 kein Forschungs-Projekt mehr — es ist eine 4-Stunden-Aktion, die du nach diesem Guide alleine durchziehen kannst. Die Hardware-Hürde ist niedriger als je zuvor (Civitai oder fal.ai genügen, wenn keine GPU vorhanden), die Trainings-Kosten sind im einstelligen Euro-Bereich, und die Konsistenz-Sprünge sind dramatisch — von 70 % mit Referenzbild-Methoden auf 90–95 % mit einem gut trainierten LoRA.
Wenn du noch keinen KI-Charakter hast: starte zuerst mit dem Charakter-Konsistenz-Guide und baue mit Referenzbild-Methoden deinen ersten 15–20-Bilder-Datensatz auf. Dann komm hierher zurück und trainiere das LoRA.
Wenn du schon einen Charakter hast und nur die Pipeline auf das nächste Konsistenz-Level heben willst: Geh direkt zu Civitai oder FluxGym, trainiere dein erstes LoRA in den nächsten 24 Stunden, und integriere es in deinen bestehenden ComfyUI-Workflow. Wenn du noch nicht weißt, welches Basismodell dein Trainings-Ziel sein soll, hilft die Übersicht der besten KI-Bildmodelle für KI-Influencer bei der Auswahl — die Empfehlung für 95 % der Fälle ist Flux Dev oder Qwen Image, aber je nach Hardware und Pipeline können andere Antworten richtig sein.
Und für alles, was nach dem LoRA kommt — Prompts, die das LoRA wirklich zum Glänzen bringen, mit Reihenfolge, Trigger-Word-Platzierung und Negative-Prompts, die in Flux funktionieren — ist die Prompt-Bibliothek für KI-Influencer das Werkzeug. Sie ist der natürliche nächste Schritt: erst LoRA trainieren, dann mit der Prompt-Matrix in jedem Modell saubere, konsistente Bilder erzeugen. Wer den vollständigen Weg von Null zum monetarisierbaren KI-Influencer-Feed sucht, sollte bei der Hauptanleitung KI-Influencer erstellen starten — sie ordnet alle Schritte (Charakter aufbauen, LoRA trainieren, Prompts schreiben, Workflow industrialisieren, monetarisieren) in die richtige Reihenfolge.