Bilder mit KI zu generieren, ist längst kein Geheimtipp mehr. Aber wirklich präzise Ergebnisse? Die bekommst du nur, wenn du der KI exakt sagst, was du willst. Und genau hier kommt Prompting per JSON ins Spiel.


Was ist dieser JSON-Code überhaupt?

JSON steht für „JavaScript Object Notation“ – klingt erstmal nach Entwickler-Kauderwelsch, ist aber im Kern nichts anderes als eine strukturierte Beschreibung. Du sagst der KI nicht einfach „Mona Lisa, bitte“, sondern erklärst ihr ganz genau:

  • Was ist zu sehen?
  • Wer ist im Bild?
  • Wo befindet sich was?
  • Wie soll die Szene wirken?

Statt Freitext also eine präzise Landkarte für die KI. Das ist vor allem dann hilfreich, wenn du bestehende Bilder nachstellen möchtest – oder wenn du mehrere ähnliche Bilder generierst und Konsistenz brauchst.

Wie kann das in der Praxis aussehen? Einfach Bild bei ChatGPT hochladen und um den JSON-Code bitten, zum Beispiel so:

Bitte erzeuge mir den ausführlichen JSON-Code zu diesem Bild.

Als nächstes kann man dann diesen JSON-Code anpassen und daraus, z.B. auch in ChatGPT, ein Bild erstellen lassen. Was natürlich auch geht: Nur Teile des Codes nutzen. Das bietet sich an, wenn man z.B. nur den Stil des Bildes übernehmen möchte. Dazu kann man aber auch direkt den Prompt für den JSON-Code anpassen.


Drei Beispiele: So lassen sich ikonische Bilder nachbauen

Hier drei bekannte Motive, die wir mithilfe von JSON prompten:

1. Indiana Jones & das goldene Idol

{
  "titel": "Indiana Jones und das goldene Idol",
  "beschreibung": "Ein spannungsgeladener Moment aus einem Abenteuerfilm: Der Protagonist starrt konzentriert auf ein goldenes Artefakt, das vor ihm auf einem Steinsockel liegt – bereit, es zu bergen.",
  "bild": {
    "format": "querformat",
    "stimmung": "angespannt, geheimnisvoll",
    "umgebung": {
      "ort": "inneres eines alten Tempels im Dschungel",
      "beleuchtung": "schwaches, warmes Licht mit goldenen Reflexionen",
      "hintergrund": "dunkle, unscharfe Tempelwände mit moosigen und steinernen Strukturen"
    },
    "vordergrund": {
      "objekte": [
        {
          "typ": "Artefakt",
          "beschreibung": "Ein glänzendes, goldenes Idol mit stilisiertem Gesicht",
          "material": "massives Gold oder goldfarbenes Metall",
          "position": "rechts im Bild, auf einem flachen Steinsockel",
          "lichteffekte": "stark reflektierend, erzeugt goldene Lichtpunkte"
        }
      ],
      "person": {
        "rolle": "Abenteurer",
        "beschreibung": "Ein Mann mit entschlossenem Blick, fixiert das Idol",
        "bekleidung": {
          "hut": "brauner Fedora-Hut",
          "jacke": "dunkelbraune Lederjacke",
          "hemd": "beiges Hemd mit geöffnetem Kragen",
          "accessoires": "Schulterriemen einer Umhängetasche oder Peitsche"
        },
        "emotion": "angespannt, konzentriert",
        "position": "links im Bild, Gesicht dem Idol zugewandt",
        "ausdruck": "leicht geöffneter Mund, angespannte Gesichtszüge"
      }
    },
    "komposition": {
      "fokus": "visuelle Spannung zwischen Gesicht des Mannes und dem Idol",
      "perspektive": "halbnahe Aufnahme mit Fokus auf das Gesicht und das Idol",
      "tiefe": "unscharfer Hintergrund, scharfer Fokus auf Vordergrundobjekte"
    }
  }
}

2. Mona Lisa

{
  "titel": "Mona Lisa",
  "kuenstler": "Leonardo da Vinci",
  "beschreibung": "Ein weltberühmtes Porträt einer Frau mit geheimnisvollem Lächeln, die ruhig und frontal auf einem Stuhl sitzt, die Hände gefaltet. Der Hintergrund zeigt eine traumartige Landschaft mit Bergen, Wasserläufen und einem gewundenen Pfad.",
  "bild": {
    "format": "hochformat",
    "stil": "Renaissance",
    "techniken": ["Ölmalerei", "Sfumato", "realistische Darstellung"],
    "farbe": {
      "palette": ["warme Hauttöne", "erdige Brauntöne", "dunkles Grün", "blaugräuliche Landschaft"],
      "beleuchtung": "weich, von vorne beleuchtet"
    },
    "charakter": {
      "rolle": "Porträtierte Frau",
      "ausdruck": "geheimnisvolles Lächeln, ruhige Mimik",
      "blickrichtung": "schaut den Betrachter direkt an",
      "haare": "dunkelbraun, glatt, offen getragen",
      "bekleidung": {
        "oberteil": "dunkles Kleid mit fein gefaltetem Stoff",
        "details": "goldene Ärmelbündchen, transparenter Schleier über dem Haar"
      },
      "haltung": {
        "koerper": "leicht gedreht, aber Gesicht frontal",
        "haende": "ineinander gefaltet auf dem Arm einer Holzlehne"
      },
      "position": "zentral im Vordergrund"
    },
    "hintergrund": {
      "typ": "Landschaft",
      "elemente": [
        "zerklüftete Berge",
        "Flusslauf oder See",
        "geschwungene Straße oder Pfad",
        "blauer Himmel mit Dunstschleier"
      ],
      "stil": "traumartig, leicht surreal, atmosphärische Perspektive"
    },
    "material": {
      "traeger": "Pappelholz",
      "farbe": "Ölfarbe"
    },
    "dimensionen": {
      "hoehe_cm": 77,
      "breite_cm": 53
    },
    "entstehungszeitraum": "ca. 1503–1506"
  }
}

3. Knight Rider: David Hasselhoff auf K.I.T.T.

{
  "titel": "Mann mit Lederjacke sitzt auf futuristischem Auto",
  "beschreibung": "Ein Mann sitzt auf der Motorhaube eines schwarzen Sportwagens und zeigt mit dem Daumen nach oben. Die Szene erinnert an eine ikonische Fernsehszene der 80er Jahre.",
  "bild": {
    "format": "querformat",
    "stimmung": "heroisch, cool, retro",
    "szene": {
      "ort": "Industriegelände oder Parkplatz",
      "hintergrund": {
        "objekte": [
          {
            "typ": "Lastwagen",
            "farbe": "weiß",
            "position": "mittig im Hintergrund"
          },
          {
            "typ": "Gebäude",
            "farbe": "grau",
            "beschreibung": "Industriegebäude mit Lüftungsgitter",
            "position": "rechter Hintergrund"
          },
          {
            "typ": "Wohnmobil",
            "farbe": "gelb-weiß",
            "position": "ganz rechts im Hintergrund"
          }
        ]
      },
      "vordergrund": {
        "fahrzeug": {
          "typ": "schwarzer Sportwagen",
          "design": "futuristisch mit rotem Scannerlicht an der Front",
          "beschreibung": "Ähnelt einem Fahrzeug aus einer Sci-Fi-Serie, z. B. ein modifiziertes Muscle-Car",

Warum JSON statt Freitext?

Viele KI-Bildmodelle wie DALL·E, Midjourney oder Ideogram reagieren zwar auf normale Textprompts – aber sie sind:

  • ungenau (besonders bei komplexen Szenen),
  • wiederholungsanfällig (wenn man mehrere Bilder braucht),
  • kreativ, aber nicht immer realistisch.

Mit JSON kannst du:

  • explizite Bildkompositionen erstellen (z. B. links der Baum, rechts der Hund),
  • wiederverwendbare Vorlagen bauen,
  • und nachvollziehen, was genau du der KI gesagt hast – auch später noch.

Aber Moment: Warum sieht das Gesicht nicht aus wie das Original?

Ein typisches Problem bei der Bild-KI: Egal wie präzise du bist – viele Modelle (darunter auch ChatGPTs integriertes Bildmodell) erfinden die Szene neu. Dabei verschwinden schnell Frisuren, Gesichtszüge oder Details.

Es gibt drei Auswege:

  1. Im Prompt betonen, dass bestimmte Merkmale erhalten bleiben sollen (siehe Beispiel unten).
  2. Ein anderes Modell nutzen, z. B. Flux.1 Kontext – das kann Kontexte über mehrere Iterationen bewahren (mehr dazu hier).
  3. Gesichter nachträglich ersetzen, z. B. mit Tools wie AI Face Swap – auch darüber haben wir bereits geschrieben (Link zum Beitrag).

Gimmick für euch: Der Selfie-Prompt fürs coole Schwarz-Weiß-Porträt

Einfach euer Selfie hochladen und mit diesem Prompt füttern:

Verwandle dieses exakte Selfie in ein hochauflösendes, schwarz-weißes, filmisches Porträt, das nachts auf einer vom Regen durchnässten Straße in Tokio spielt.

Bewahre die ursprünglichen Gesichtszüge, Proportionen, Hautstruktur, Frisur und den Gesichtsausdruck der abgebildeten Person exakt – keine Retusche, keine Veränderungen am Gesicht.

Wandle die gesamte Szene in tiefes Monochrom um: reines Schwarz, helle silberne Glanzlichter und satte Mitteltöne für eine kontrastreiche, professionelle Film-noir-Ästhetik.

Beleuchte das Gesicht mit weichem, gerichteten „Neon“-Streiflicht (nun als leuchtende Grautöne dargestellt) von links im Bild. Dadurch entstehen dezente Glanzlichter auf den Wangen und entlang der markanten Kieferlinie, während die rechte Seite sanft im Schatten liegt.

Kleide die Person in stilvolle, urbane Streetwear: eine dunkle Techwear-Bomberjacke oder minimalistischer Hoodie mit feiner Textur.

Hintergrund: unscharfe Gasse in Tokio mit leuchtenden Kanji-Schriftzeichen, Verkaufsautomaten und spiegelnden Pfützen – alles in gestaffeltem Graustufen-Bokeh für Tiefe.

Füge ultrafeines analoges Filmkorn und eine sehr leichte Vignette hinzu, um ein hochwertiges Mittelformat-Gefühl zu erzeugen.

Optional: leichter Nebel oder feine Regenstreifen in mittleren Grautönen für zusätzliche Atmosphäre.

Vertikales 4:5-Format, Person zentriert ab der Brust aufwärts, das Gesicht gestochen scharf, während die Ränder weich verlaufen.

Das finale Bild soll wirken wie eine aufwendig produzierte, hochklassige Filmszene in Schwarz-Weiß: stilvoll, stimmungsvoll und unverkennbar Tokio.

Kleiner Hinweis: Je besser die Eingangsqualität (z. B. gute Auflösung, klare Lichtverhältnisse), desto schöner das Ergebnis.


Wollt ihr mehr von diesen Prompts? Schreibt uns – vielleicht bauen wir eine ganze Prompt-Galerie für euch.

Und falls ihr euch fragt, warum hier kein Disclaimer zum Thema Urheberrecht steht: Den haben wir schon in einem früheren Beitrag behandelt. Kurzfassung: Wenn ihr echte Personen oder Werke nachstellt, denkt bitte an die Rechte Dritter.

Eure Rookies,
Niklas & Jan

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

The maximum upload file size: 4 MB. You can upload: image. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here