Hinter meinem Haus steht ein neuer Carport. Helle Holzkonstruktion, Flachdach, vier Pfosten — fertig montiert, optisch sauber. Was fehlt: der Boden. Aktuell ist das Erdreich, Schotter, durchwachsen mit etwas Gras. Der Plan ist klar: warmer Sandstein, im Wildverband verlegt, farblich passend zum bestehenden Gartenweg vor dem Haus. Das Material liegt schon gestapelt im Carport und wartet auf den Wochenendeinsatz mit Schwiegervater.
Was mich beschäftigt hat, bevor der erste Stein in den Sand kommt: wie wird das eigentlich aussehen? Bei einem Pflasterboden ist die Vorstellungskraft begrenzt. Man weiß intellektuell, dass warmer Sandstein die ganze Optik des Carports anders verankert als grauer Beton. Aber sehen tut man’s erst, wenn’s verlegt ist — und dann ist’s zu spät für eine Materialentscheidung.
Naheliegende Idee: lokale KI-Bildgenerierung anwerfen und sich die Vision rendern lassen. Die Stack-Grundlagen habe ich im Hauptartikel zur lokalen KI-Bildgenerierung ausführlich beschrieben — hier geht’s um den konkreten Use Case: ein Foto vom Bestand, ein Prompt, ein zweites Bild als Vision. Was klassisches img2img kann, und wo es ehrlich an Grenzen kommt.
Der Ausgangszustand#


Zwei Bilder, eine Frage: wie nah kommt die KI-Variante an das, was ich tatsächlich hinterher in der Realität haben werde?
Wie img2img funktioniert (kurz)#
Beim klassischen img2img bekommt FLUX dein Quellbild als Latent-Initialisierung — der Startpunkt für den Sampling-Prozess wird aus dem Bild abgeleitet, nicht aus reinem Rauschen wie bei text2img. Wie sehr das Modell sich danach vom Quellbild entfernt, steuert ein Parameter: Denoise.
denoise=0.2— bleibt sehr nah am Original, eignet sich für leichte Stiländerungen, Belichtungs-Korrekturendenoise=0.6— Sweet Spot für Material-Wechsel: Struktur bleibt grob erhalten, Oberflächen und Farben können sich substantiell änderndenoise=0.85— fast freie Neuinterpretation, das Quellbild ist nur noch entfernte Anregung
Wichtig: img2img sieht das Quellbild nicht über die gesamte Sampling-Trajektorie. Bei höheren Denoise-Werten entfernt sich das Modell mit jedem Schritt weiter vom Original, und der Prompt füllt die Freiheit nach FLUX-eigenen Vorstellungen. Das ist ein Feature, kein Bug — aber es bestimmt, was ihr realistisch erwarten könnt.
Der Prompt#
Was ich an FLUX geschickt habe, kommentiert:
python gen.py "Photorealistic architectural visualization of the same carport, now completed: ground entirely covered with warm sandstone interlocking pavers in a natural random-bond pattern, mixed shades of beige, sand-yellow, and reddish-brown, matching the existing garden walkway visible in the property. Clean professional installation with tight joints, weathered natural stone aesthetic. Soft golden afternoon light, calm residential summer atmosphere. Preserve the carport posts, beams, roof structure, surrounding walls, fence, and overall composition exactly as in the source image. Architectural photography, sharp focus, photorealistic, no people, no vehicles, no garden hose, no clutter." \
--input carport.jpg \
--denoise 0.6 \
--seed 8888Drei Bausteine machen den Unterschied:
1. Material explizit beschrieben. Nicht “Pflaster”, sondern “warm sandstone interlocking pavers in a natural random-bond pattern, mixed shades of beige, sand-yellow, and reddish-brown”. FLUX hat Defaults für “Pflaster” — die ergeben dir generisches Beton-Grau. Drei Farbnuancen explizit, plus das Verlegemuster, gibt dem Modell die Information, die es für deinen konkreten Stein braucht.
2. Preserve-Klausel. “Preserve the carport posts, beams, roof structure, surrounding walls, fence, and overall composition exactly as in the source image.” Klare Anweisung was bleiben soll. Bei denoise=0.6 ist das kein Garantieschein, aber ohne diese Klausel wird FLUX deutlich freier mit der Struktur.
3. Negativ-Klauseln am Ende. “no people, no vehicles, no garden hose, no clutter.” FLUX neigt zu zufälligem Beiwerk — Stockfoto-Anmutung mit Auto, Person, Gartengeräten. Wer das nicht will, muss es explizit ausschließen.
Was getroffen wurde#
Carport-Struktur: erkennbar dieselbe. Heller Holzbau, Flachdach, Proportion und Perspektive sehr nah am Original. Wer mein echtes Carport kennt, identifiziert das hier auf den ersten Blick wieder.
Material: hier liefert FLUX richtig ab. Der gerenderte Boden ist tatsächlich warmer Sandstein in genau der Farbpalette, die ich beschrieben habe — Beige, Sand-Gelb, leichte rötliche Töne, Wildverband. Wer das Pflaster-Demobild aus meinem Garten kennt, sieht: FLUX hat das Material verstanden und nicht in Beton-Default zurückgefallen.
Atmosphäre: weiches goldenes Abendlicht, saubere Komposition, einladend. Visuell ist das ein starkes Bild.
Was nicht funktioniert hat#
Hier wird’s ehrlich:
Spezifischer Hintergrund ist verloren. Im Original ist hinter dem Carport ein konkretes Backsteinhaus mit kleinem Anbau, dazu eine sehr hohe Konifere rechts. Im Rendering: ersetzt durch generischere Wohnsiedlung-Anmutung mit weißen Häusern und Bruchstein-Mauern. Niemand erkennt “ah, das ist genau die Stelle bei dir hinterm Haus”, weil der vertraute Bestandskontext fehlt.
Tageszeit ist anders. Das Original ist Mittagslicht mit harten Schatten. Das Rendering ist warme Abendsonne. FLUX hat sich entschieden, die Lichtstimmung zu interpretieren — vermutlich weil “soft golden afternoon light” im Prompt stand. Ohne diese Spezifikation hätte FLUX wahrscheinlich auch nicht die Original-Mittagsstimmung getroffen.
Mauern und Zäune sind neu erfunden. Die niedrige Stein-Bordsteinkante links unten und der Holzzaun rechts vom Original — durch Bruchstein-Mauern ersetzt. Das ist genau das, was bei denoise=0.6 passieren kann: Strukturen außerhalb des Hauptfokus werden vom Modell nach eigenem Ermessen umgemodelt.
Was das praktisch heißt#
Das hier ist eine Vision, keine Vorher/Nachher-Dokumentation. Der Unterschied ist wichtig:
Eine Vision beantwortet die Frage “Welche Atmosphäre entsteht durch dieses Material?” — und das tut das Bild gut. Ich sehe jetzt, wie warmer Sandstein im Carport-Kontext wirkt, welche Lichtstimmung er trägt, ob das Material zu meiner Erwartung passt. Für die Entscheidung “richtige Materialwahl?” reicht das hundertprozentig.
Eine Vorher/Nachher-Dokumentation würde dagegen voraussetzen, dass der Bestandskontext pixelgenau erhalten bleibt — sonst kann der Betrachter nicht prüfen, ob das Vorher und Nachher denselben Ort zeigen. Das leistet klassisches img2img mit Denoise 0.6 strukturell nicht.
Wo die Methode an Grenzen kommt#
Wer eine echte Vorher/Nachher-Treue braucht — etwa für Marketing, Kundenpräsentationen oder als Dokumentation einer Baumaßnahme — ist mit klassischem img2img am falschen Werkzeug. Es gibt zwei bessere Ansätze:
FLUX.2 Edit-Modus. Das Quellbild geht über Cross-Attention als kontinuierlicher Referenz-Kontext in jeden Sampling-Schritt ein, nicht nur als Latent-Init. Strukturerhalt ist deutlich höher. Das ist der direkte nächste Schritt für mich, wenn ich Bestandskontext exakt halten will — und Thema eines Folgeartikels.
Inpainting mit Maske. Du malst eine Maske über den Bereich, der sich ändern soll (hier: der Boden). FLUX rendert nur dort. Alles außerhalb der Maske bleibt pixelgenau wie im Original. Carport, Backsteinhaus, Konifere, Zaun, Mülltonnen — alles unverändert. Mehr Aufwand (Maske erstellen), aber das Ergebnis ist dann eine echte 1:1-Vorher/Nachher-Sequenz.
Beide Methoden bauen auf demselben Stack auf, den ich für klassisches img2img schon habe — nur der Workflow-Graph in ComfyUI sieht anders aus. Mehr dazu in einem der nächsten Artikel.
Mein Fazit nach diesem Test#
Klassisches img2img liefert für Material-Studien und Atmosphären-Visualisierungen gute Ergebnisse, wenn der Prompt präzise ist. Die drei Hebel sind: Material explizit beschreiben, Preserve-Klauseln setzen, Negativ-Klauseln am Ende ergänzen. Mit denoise=0.6 als Default kommt man weit.
Für strukturerhaltende Edits mit Bestandskontext ist klassisches img2img das falsche Werkzeug — nicht weil es kaputt wäre, sondern weil seine Architektur darauf nicht ausgelegt ist. Wer das versucht und sich über schlechte Ergebnisse wundert, hat das Werkzeug falsch verstanden, nicht falsch bedient.
In meinem konkreten Fall: das Bild reicht, um zu wissen, dass ich die richtige Materialwahl getroffen habe. Wenn der Carport-Boden im Sommer tatsächlich liegt, mache ich ein echtes Vorher/Nachher-Foto und kann dann vergleichen, wie nah die KI-Vision an die Realität gekommen ist. Bis dahin ist das hier ein durchaus brauchbarer Vorgriff — und ein gutes Beispiel dafür, was im eigenen Homelab heute schon technisch möglich ist, ohne dass die Bilder durch einen externen Server müssen.
Wer den darunterliegenden Stack im Detail nachvollziehen will, findet die Hardware- und Software-Architektur im Hauptartikel zur lokalen KI-Bildgenerierung. Wer Begleitung bei eigenen lokalen KI-Projekten sucht, kann sich auf detlev-lengsfeld.de ansehen, womit ich mich aktuell beschäftige.