Beiträge von Melegrian

    So, nun habe ich oben den Link geändert, enthält nun mehr Filter, mehr als einen Kompressor, einige Spuren mit einer Volumenregelung an einigen Stellen in den Spuren, ist besser, aber noch nicht optimal.


    Gut, habe nicht die besten Lautsprecher am Rechner, aber wenigstens mit Holzgehäuse. Auf dem Handy ist alles kein Vergleich. Was mir aufgefallen ist, bei Matuschka wirds im Chorus leiser, als wenn sie allein singt, und Suno konnte bisher nicht viel mehr als im Chorus zu schreien.


    Einen Versuch mache ich noch, vielleicht auch mehr. Oder lade es noch einmal hoch, mit weiteren Angaben.


    Aus den einen Versuch wurden noch zwei, den Link oben habe ich entsprechend geändert. Zwischen dreiviertel bis voller Lautstärke auf dem Handy hört es sich noch immer nicht richtig an. Vor allem der Chorus im ersten Teil, der macht mir zu schaffen, doch den bekomme ich nicht mehr weiter gedimmt. Am Rechner hört er sich zwar besser an, doch es kommen nun einmal, vor allem bei Shorts, um die 80 % mit dem Handy.

    Was ich noch versuchen, den letzten Stand als Audio für einen Mix nach Suno und eventuell auch nach Producer hochzuladen. Falls das auch nichts wird, dann lasse ich es so, zumindest fällt mir nichts anderes mehr ein. Dazu muss ich mir aber vorher noch überlegen, wie ich das mit den Angaben für Styles mache, wegen des unterschiedlichen Tempos und anderen.

    Das mit der Frau finde ich am besten, dass mit dem ist aber auch sehr gut und macht nachdenklich. Die Bilder nur mit den Türen haben ebenfalls ihre Wirkung auf den Betrachter. Die Sprüche sind passend.

    Weiß nicht warum

    Auf dem Handy hatte ich es mir nicht angehört, doch in der DAW schlug das Luf-Meter für Loudness bis über 0 aus, was theoretisch zu Verzerrungen durch Clipping führen kann, diesmal noch schlimmer, als bei den anderen von Suno. Habe mit Kompressor und Gain zwar nachgeregelt, optimal finde ich es dennoch nicht, und verstehe nicht, warum Suno das macht.

    So, den Song habe ich, so gut es ging, abgemischt.
    Ein Problem dabei war, dass das Intro nicht einfach zu verlängern ging, ohne Zweidrittel des Intros zu markieren, welches dann vermutlich wieder mit überschrieben worden wäre. Also habe ich es anders gemacht, habe mir neue Versionen mit galoppierendem Tempo generieren lassen, dann in der DAW von der Version, die mir am besten gefiel, die erste Strophe weggeschnitten. Um beide zu verbinden, woran ich ohnehin bereits vorher bei der Gestaltung dachte, aus beiden Teilen ein paar Takte von den Drums als Brücke zusammengeschnitten. Genauer, etwa einen Takt mit Drums aus dem ersten Teil, und etwa zwei Takte aus dem zweiten Teil, und dazu noch etwas Huuuuuh, weil das ebenfalls passte.


    Was für mich wichtig ist, ich kann es mir 10-mal hintereinander anhören, ohne das mir dabei langweilig wird.
    Habe es jetzt aber nur in einem Testverzeichnis zu liegen.


    https://movieszenen.de/tests/2026/Pegamix-05.mp3


    Und was auch nicht der Fall ist, dass ich Gemini oder ChatGPT einfach den kompletten Liedtext überlassen hätte. Die beste Zusammenarbeit war aber nach dem Intro mit ChatGPT. Die erste Strophe von Gemini, die später als Intro bezeichnete:


    Aus der Tiefe quillt das Blut,

    Dunkelrot und voller Wut,

    Marmorsäulen stehn dabei,

    In der Stille ganz aus Blei,

    Und aus dem Blut steigt ein Pferd empor,

    Breitet weite Flügel aus wie ein Chor,

    Pegasus erhebt sich rein und klar,

    Ein Wunder ist offenbar.


    Aus Medusa quillt das Blut, (meine Ersetzung, da hat aber später Suno oft aus "Aus" ein "Um" gemachte, was gerade noch geht.)

    Dunkelrot und voller Wut,

    Marmorsäulen stehn dabei,

    In der Stille kühl und frei, (aus den Vorschlägen von ChatGPT)

    Und aus dem Blut steigt ein Pferd empor,

    Breitet weite Flügel aus wie ein Chor,

    Pegasus erhebt sich rein und klar,

    Ein Wunder ist offenbar.


    Für die erste Strophe hatte ich die erste und dritte Zeile fertig, da aber alles in Paarreim sich fortsetzen sollte, fehlte mir noch die zweite und vierte fehlte Zeile.


    "Pegasus erhebt sich in die Lüfte"
    "Weit holen seine Schwingen aus"


    Die zweite Stropfe nach dem Intro:


    Pegasus berührt mit hellem Huf den Stein,

    und ein Quell bricht silbern aus dem Gestein.

    Dort, wo seine Flügel Schatten ziehn,

    trinken Musen Traum und Melodien.

    Da kam Tritonia, den Quell zu sehen,

    wo Blumen rings ums Musenwasser stehen.


    Auf die Tritonia (Athene) kam ich, weil am Ende des vierten Buches von Ovids Metamorphosen erwähnt wurde, dass sie vorbeikam, um das Wunder zu begutachten. Pegasus hatte mit seinen Hufen eine Quelle aus dem Berg oder Boden geschlagen, in dem sich danach die Musen (neun Schwestern und Töchter von Zeus, lese ich gerade) tummelten.


    Auch für den Refrain hatte ich eine Grundvorstellung mit "Pegasus eile", ChatGPT kann aber besser reimen.

    So wollte ich es nicht, doch Producer-Chat scheint noch nicht alles zu verstehen. Wollte zuerst in einem 30 Sekunden Clip den Text geändert haben, danach Stil, schrieb es auch, was ich nicht haben wollte, eine Oper aus einer Strophe, wo aus Blut Licht gemacht wird. Bin vom Ergebnis schockiert, es ist nicht schlecht, nur nicht das, was ich haben wollte.


    https://www.producer.ai/song/e42e6c2d-1b3a-41d0-bbad-b95b0c34b765


    https://www.producer.ai/song/92b52f7d-d4b1-466b-ac25-b6f4bd1fe649


    Situation gerettet, Audio bei Suno nicht hochgeladen, nur meinen bereits geänderten Texts fürs Intro und über Text auch gleich in Klammern vermerkt [Into -Prolog]. Suno hat auch nichts gegen "Blut" gehabt und gleich ohne Vorbemerkungen erkannt, dass das bei Pegasus so sein muss. Mehrere Variationen rendern lassen, von denen mir bisher diese am besten gefällt:


    Pegasus Intro 01
    Listen and make your own on Suno.
    suno.com

    Nun habe ich vermutlich alle wichtigen Stellen am Ende des 4. und in der Mitte des 5. Buches von Ovid gefunden, nehme ich an. Die Geschichten sind verwoben, schwer zu lesen, weil man die meisten Namen nicht kennt, zumindest ich.


    So ist mir zwar Athene bekannt, aber nicht, wenn diese im Buch unter den Namen Tritonia auftaucht. Jedenfalls hat diese gesehen, wie Pegasus aus dem Blut der Medusa geboren wurde. Darüber wird aber an einer Stelle berichtet, an der es eigentlich darum geht, dass Pegasus irgendwo mit seinen Hufen aufschlug, um eine sprudelnde Quelle zu schaffen, wodurch das umliegende Land ergrünte und erblühte. (Möglicherweise entstanden später überall Quellen, wo er mit den Hufen aufschlug, andere Quellen scheinen davon auszugehen, das sich das Blut der Medusa mit Meerwasser vermischte, und Poseidon ihn aus Wellen entspringen ließ.)


    Atlas kennt man als Träger des Himmelsgewölbes, doch Perseus hielt ihm den Kopf der Medusa hingegen, wodurch er zum Atlasgebirge versteinerte. Scheint bekannt zu sein. Weniger vielleicht, nicht ganz versteinert, seine Barthaare wurden wohl zu Bäumen und Wäldern.


    Endlich ist gibt es auch eine Stelle im Buch, die beschreibt, wie Korallenriffe entstehen. Also, Perseus legt den Sack, in dem sich der Kopf der Medusa befand, in den Sand, nicht ohne den Boden vorher mit Laub zu bestreuen, bereitet wohl ein richtiges Lager, aus Laub und Zweigen, doch alles erstarrt zu Stein. Doch die Nymphen geben ihr Bestes, verstreuen die Samen davon über dem Meer.

    Weil ich letzte Nacht keinen Schlaf, habe ich zuerst probiert, weitere Images von der gleichen Szene zu mit anderen KIs rendern, die aber keinesfalls besser wurden. Also nahm ich die vorhandenen für Start- und Endframe. Danach ließ ich es von 2 Models rendern. Einmal von Klink Video O3 Omni, aktuell das teuerste Model von Kling, mit 12 Sekunden, da gefiel mir die Simulation der Flüssigkeit nicht, zweimal mit Kling Video O1, nur ein Drittel vom Preis, dafür begrenzt auf 10 Sekunden. Dass es sich bei Perspektive um dieselbe Ruine handelt, nur um Zoom und vielleicht noch etwas veränderte Brennweite, wurde dabei in drei Versuchen nicht erkannt, dafür zum Ausgleich Umbauarbeiten, besonders in der rechten Bildhälfte, durchgeführt.


    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.


    Wie die Musik klingen sollte, davon habe ich zwischenzeitlich ebenfalls eine Vorstellung, aber ob das alles so wird. Vorher hatte ich mich aber Analysen erstellen lassen, über neuzeitliche Ethno Musik, Wirkung, Stilrichtungen, Bands.


    So, erkundigen wollte ich mich bei Gemini nur, ob ich den Musikclip von gestern von Gemini mit nach Producer AI neben könnte. Daran hätte ich ja nur ein einfaches Nutzungsrecht. Kein Problem, da ja Producer AI seit Ende Februar mit zu Google Labs und DeepMind gehört, benutzen beide dieselbe technologische Basis (Lyria-Modelle) und dasselbe Wasserzeichen-System (SynthID). Unterschied, da habe ich volle Nutzerrechte.


    Doch dann nahm die Unterhaltung Fahrt auf. Weil 30 Sekunden sind eigentlich viel zu lang, für ein langweiliges Intro, doch:


    Dass der Text in den ersten 30 Sekunden genau erklärt, worum es geht, ändert die Spielregeln komplett:

    • Kein "toter" Vorspann: Wenn der Text Inhalt transportiert, zählt das für den Zuschauer nicht als "Wartezeit" (wie bei einem reinen Logo-Intro), sondern bereits als Content. 
    • Storytelling: Du nutzt die 30 Sekunden als Prolog. Das ist ein sehr starkes Stilmittel.

    Und anschließend dann ein galoppierendes Tempo. Tipps über Tipps, wie ich es am besten in Producer AI umsetzten könnte, einschließlich der englischen Begriffe für Prompts. Nun ja, von heute auf morgen wird es wohl nichts werden.

    Ein Märchen, nein, nicht direkt zumindest, es ist Pegasus, das mystische Pferd, das bekanntlich aus dem Blut der Medusa geboren wurde, nach dem ihr Perseus den Kopf abschlug. Ganz so bekannt ist es vielleicht doch nicht, das Pferd schon, aber nicht das es aus dem Blut der Medusa geboren wurde. Wusste ich bis gestern auch nicht, nur über einem Auszug aus Ovids Metamorphosen (etwa 2000 Jahre alt) heißt es ähnlich, und der Autor muss gewusst haben. Es waren 3 Schwestern, genannt Gorgonen, nur eine davon war Medusa.


    Habe nicht gleich einen Prompt geschrieben, denn mit "Blood" wäre ich in einem Filter gelaufen. Vielmehr habe ich Gemini das Thema erklärt.

    Allgemein bin ich bereits zufrieden.






    Gemini wollte gleich noch Musik hinzufügen, am Anfang ist eine Pause von etwa 6 Sekunden (heute nicht mehr). Der Text vom Lied geht schon bald, die Begleitung stelle ich mir noch anders vor.


    ‎Gemini - direct access to Google AI
    Created with Gemini
    gemini.google.com

    Habe ich noch nie gewusst, dass man mit einem Rechtsklick ins Video sich "Statistiken für Interessierte" ansehen kann, wo unter anderen in Prozent steht, ob Audio von YouTube komprimiert wurde oder nicht und das Peaks bis -1 dB gehen können, aber der Durchschnittswert für Lufs nur bis -14. Gestern habe ich mich in meinem Kompressor eingearbeitet, heute mich mit ChatGPT unterhalten, nur nach Gefühl, Gehör und Loudness Meter fast ideale Einstellungen erreicht. -8 und 1.5:1 waren meine Einstellungen, belasse ich wohl auch dabei, für mich hörte es sich ja gut an. Aber insgesamt ist es ein erfreuliches Schlusswort gewesen.


    Wenn du es noch eleganter machen wolltest

    Statt Threshold -8 könntest du testweise:

    Threshold auf -10 dB setzen

    Ratio bei 1.5:1 lassen

    Dann würde er minimal früher und gleichmäßiger arbeiten – aber immer noch sehr musikalisch.


    Nicht nötig – nur Feintuning.


    Ganz ehrlich:

    Du machst gerade kein „Lautheits-Mastering“.

    Du machst Dynamik-Kontrolle.

    Und für Balladen ist genau das der richtige Ansatz.


    Nun höre ich auf damit, es reicht wirklich hin.

    Der Kreative versteht nie wie man die Zeit mit kompliziert verbringt,

    Das ist noch viel schlimmer und viel komplizierter.


    Um auf ein ähnliches stimmliches Volumen wie die Interpretin im Video zu kommen, geht es gar nicht anders, als in Suren aufzuteilen, und die Gesangsspur um 3 bis 4 dB abzusenken. Bei der Gelegenheit habe ich erst bemerkt, dass eine andere Spur von meinem Suno-Song etwa ab 2:02 ein Störgeräusch in Form eines Rauschens enthält, was da nicht hingehört, also herausgefiltert werden muss. Die Störgeräusche in der zweiten Hälfte des Videos wurden hingegen bewusst zugegeben.


    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.


    Und wenn das erledigt ist, dann geht es noch um diese Aufgabe.
    Video ist auf Zeit verlinkt, wo das Wesentlich beginnt:


    Externer Inhalt www.youtube.com
    Inhalte von externen Seiten werden ohne Ihre Zustimmung nicht automatisch geladen und angezeigt.
    Durch die Aktivierung der externen Inhalte erklären Sie sich damit einverstanden, dass personenbezogene Daten an Drittplattformen übermittelt werden. Mehr Informationen dazu haben wir in unserer Datenschutzerklärung zur Verfügung gestellt.


    Der kreative Musiker braucht gar nicht zu verstehen, wie sein Tontechniker arbeitet, er muss nur wissen, dass er einen braucht. Genauso wie ein Schauspieler einen Tontechniker, Kameramann, Beleuchter und Schnitttechniker braucht. Wem alles fehlt, könnte noch Maler werden, er könnte nur keine Reprints von seinen Werken anfertigen, da würde bereits wieder kompliziert. Und daran denken, alle großen Maler frühere Jahrhunderte, die lernten nebenbei ihre Farben selbst anzufertigen.


    Beide Werte gehen nicht, -0.2 ist schon im Grenzbereich, höher als -1.0 dB darf es nicht gehen. Und der obere Wert soll bei YouTube nicht -14 überschreiten, oder aber YT soll alles auf unter -14 setzen. Heißt es zumindest, ob es dann wirklich gemacht wird, ich habe gewisse Zweifel, weil sich einiges ab und an lauter anhört. Der Loudnes Meter habe ich in der Reihenfolge hinter dem Kompresser eingefügt und der sprang noch nicht an.


    Hier ist ein gut funktionierender Prompt:

    Zitat
    Soft, dreamy French chanson. Intimate female vocals. Accompanied by gentle solo piano and a soft expressive violin. Slow tempo. Minimalistic arrangement. Lots of space and air. No drums, no bass, no additional instruments, no background vocals.

    Wenn du die Violine noch dezenter willst:

    Zitat
    Soft, intimate French-style ballad. Warm female vocals. Solo piano with a subtle, lyrical violin in the background. Very minimal. Slow tempo. No percussion, no orchestral arrangement, no additional instruments.

    Letztendlich den letzten genommen, den Anfang geändert, und noch einmal neu angefangen:


    Soft, dreamy intimate French chanson. Warm female vocals. Solo piano with a subtle, lyrical violin in the background. Very minimal. Slow tempo. No percussion, no orchestral arrangement, no additional instruments.


    Erste Takte, erster Gedanke, das ist besser:


    Entre lumière et poussière
    Listen and make your own on Suno.
    suno.com


    Nun könnte ich noch einmal die Altmark angehen.


    Das zweite geht auch:


    Entre lumière et poussière
    Listen and make your own on Suno.
    suno.com


    Irgendwie hat sich Suno daraus diese Style "chanson, classical, ambient" gereimt.


    Ändert nichts daran, dass keine MIDI vorhanden ist, um ein Notenblatt zu erzeugen.

    Schwer enttäuscht!


    ChatGPT schreibt zwar, das es auch in meinem Plan möglich ist, allerdings nicht mit bei Suno bereits vorhandenen Songs, sondern mit neu hochgeladenen. Dazu ein Prompt.


    Add one soft solo violin on top of the existing mix. Do not modify the original instruments or arrangement. No new vocals.

    ---

    Füge dem bestehenden Mix eine leise Solo-Violine hinzu. Die Originalinstrumente und das Arrangement dürfen nicht verändert werden. Keine neuen Gesangsparts.

    ---


    Wichtige Hinweise zur Realität dieser Funktion


    ✔️ Der Pro-Plan listet die Funktion offiziell, und du findest sie unter bestimmten Umständen im Browser.

    ❗ Aber:

    Sie erscheint nur bei hochgeladenen Audiodateien, nicht bei rein durch Suno generierten Songs.

    Suno ändert oft auch die Original-Instrumentalspur, anstatt sie unverändert zu lassen.


    Die Feature-Bezeichnung („Add vocals/instrumentals“) klingt größer, als es tatsächlich in der Standard-App umgesetzt ist – für wirklich präzise Multitrack-Bearbeitung brauchst du bei vielen Szenarien eher Suno Studio, das typischerweise erst im Premier-Plan inkludiert ist



    Das Ergebnis ist aber ernüchternd, 30 Sekunden länger als das "Original" und in der zweiten Hälfte fängt sie an zu schreien, obwohl sie in der Vorlage ruhig singt. Diese Schreierei, wo gar keine hingehört, eventuell auch eine Möglichkeit Suno-Songs zu erkennen. Einfach nur furchtbar, aber keine Qualität. Nun hätte ich ja den ersten, gestern ausgewählten Song nehmen können, wenn der sich in MIDI umwandeln lassen würde, dann eine eigene Violine in der DAW hinzufügen können. So kann man nun nicht arbeiten, nur um aus Sunos Zufallsprodukten sich einen aussuchen. Die Image-KIs kennen ja inzwischen Konsistenz, bei Musik ist dabei noch nichts zu merken, außer vielleicht im Premier-Plan, da sieht es fasst danach aus.


    Entre lumière et poussière
    Listen and make your own on Suno.
    suno.com

    Ernüchterung.


    Was geht in meiner Version und was nicht:


    Im Song-Editor bearbeiten.



    Auch das Aufteilen in Spuren (Stems) und als Waw-Datei herunterladen.


    Beispiel mit Sur le pont.



    Doch das Hinzufügen von neuen Spuren, obwohl es in beiden Plänen steht, geht nicht. In den Tutorials, die ich sah, geht es nur im "Suno Studio", nicht aber im "Song Editor" und Zugriff auf das Suno Studio setzt einen Premier-Tarif voraus.



    Kann ja noch beide Chats fragen, ob es wirklich sich so verhält, bei mir kam jedoch nur ein Hinweis auf Upgraden.

    Und was in meinem Plan ebenfalls nicht möglich zu sein scheint, die Umwandlung in MIDI, was die Weiterverarbeitung in einer DAW für sehr erschwert.

    Habe es einmal probiert, auf meine MIDI mit Piano den Gesang abzugleichen, würde nicht ohne sehr viel Schneiden und Stretching gehen. Es liegt ja nicht mehr Silbe auf Note, so wie es in jedem Notenblatt ist.


    Kurz gesagt: **Die Feature-Listen der Suno-Pläne (Pro & Premier) sind inoffiziell etwas verwirrend formuliert**, was zu deiner Frage führt. Offizielle Angaben zeigen zwar, dass „**Add new vocals or instrumentals to existing songs**“ in beiden Bezahl-Plänen steht – aber **wie und wo diese Funktion tatsächlich verfügbar ist, hängt von der *konkreten Oberfläche* ab und davon, ob du Suno Studio nutzt oder nicht**. ([sunnoai.com][1])


    Hier ist die **klare Aufschlüsselung** der Situation:


    ### ✅ Was theoretisch in Pro *und* Premier drinsteht


    Laut offiziellen Planbeschreibungen beinhalten sowohl **Pro** als auch **Premier**:


    * Zugriff auf die Funktion, **neue Gesangs- oder Instrumentalspuren zu bestehenden Songs hinzuzufügen**

    * Upload von bis zu ~8 Minuten eigenen Audiomaterials

    * Splitten in Stems (Vocal & Instrumental)

    → also die Fähigkeit, Audio-Uploads zu remixen bzw. zu erweitern. ([sunnoai.com][1])


    ### ❗ Warum du in Tutorials *Suno Studio* siehst


    Suno Studio ist ein **Web-DAW-ähnlicher Editor**, der Funktionen wie Multitrack-Bearbeitung, umfassendere Stem-Kontrolle und mehr direkte Manipulation bietet – und **dieser ist nach aktuellem Stand nur mit dem Premier-Plan sicher verfügbar**. ([Suno][2])


    Viele Tutorials zeigen deshalb **Suno Studio**, weil es dort am offensichtlichsten möglich ist, z. B.:


    * mehrere Spuren gleichzeitig zu sehen

    * in der Timeline direkt zu arrangieren

    * Clips zu verschieben oder zu ersetzen


    Das führt dazu, dass es so wirkt, als wäre „*Add vocals/instrumentals*“ nur dort möglich.


    ### 🧠 Was in der „normalen“ App/Web-UI passiert


    Basierend auf Nutzer-Erfahrungen:


    * Die Funktion „Add Vocals/Instrumentals“ taucht **nur auf bestimmten Oberflächen oder Menüs** auf (z. B. **„Remix“- bzw. „Upload“-Bereich** in der Standard-Web-App).

    * Sie ist oft **für *hochgeladene* Tracks verfügbar**, nicht unbedingt für jedes generierte Suno-Stück.

    * Manche Anwender berichten, dass die Option **im mobilen App-UI fehlt** und nur in der Desktop-/Browser-Version sichtbar ist. ([Reddit][3])


    ### 🧩 Fazit – Was stimmt nun?


    * **Ja**, laut offizieller Feature-Liste sind „Add vocals/instrumentals“ in **Pro und Premier** enthalten. ([sunnoai.com][1])

    * **Nein**, die meisten fortgeschrittenen Editing-Workflows, die du in Tutorials siehst (mit Timeline/Multitrack etc.), sind **eher Teil von Suno Studio**, das bei vielen Nutzern **nur im Premier-Plan klar integriert ist**. ([Suno][2])

    * Die Verwirrung kommt daher, dass die **reine Funktion** technisch in beiden Plänen drin ist, aber **nicht überall gleich zugänglich/erkennbar** ist.


    Wenn du willst, kann ich dir auch **eine Schritt-für-Schritt-Anleitung** geben, wie du konkret in der aktuellen Suno-Web-App (nicht Studio) bestehendes Audio mit neuen Spuren erweiterst.

    Heute Morgen höre ich es mir erneut an, und es löst nicht das geringste Gefühl bei mir aus. Einen Song, den die Welt nicht braucht.

    Slow Motion, ohne Gefühle zu transportieren.


    Ließe es sich verbessern?

    Eventuell etwas, aber nur etwas, wenn eine vor sich hinschmelzende Violine mit hinzukommen würde.

    Die Stimme steht etwas zu laut über dem Piano. Also Piano eine Idee lauter und die Gesangstimme dafür eine Idee leiser.
    Dann könnte man es sich vielleicht anhören, doch die Welt braucht den Song auch dann noch nicht, nehme ich an.


    Der erste deutsche Text ist etwas anders als die Rückübersetzung.

    Bringe hier nur den ersten Teil.


    Zwischen Licht und Staub


    Verse 1

    Im Fenster spiegelt sich der Abend

    Gold auf müdem Asphalt

    Die Stadt atmet leise unter mir

    Und alles wird so schmal


    Ein Wind streift durch die Gardinen

    Wie eine alte Melodie

    Ich weiß nicht, wohin wir gehen

    Doch irgendwie zieht es mich zu dir


    Pre-Chorus

    Und Worte sind nur Schatten

    Wenn man sie zu laut sagt


    Chorus

    Bleib noch einen Moment hier

    Zwischen Licht und Staub

    Wo die Zeit uns nicht findet

    Und der Zweifel verstummt

    Sag nichts, ich hör dein Schweigen

    Es klingt wie Zuversicht

    Wenn die Welt uns entgleitet

    Halte ich dich im Licht

    Heute wollte ich nur einmal probieren, ob man Suno auch angewöhnen kann, nur ein Instrument zu spielen. Mir ging es mehr darum zu sehen, wie ChatGPT die Prompts schreiben würde, der Text ist ebenfalls von ChatGPT.


    Der Prompt für den Stil:


    Soft, dreamy French chanson, Intimate female vocals, Solo piano only, Slow tempo, Minimalistic arrangement, Single instrument only, no percussion, No drums, no additional instruments


    Dans la vitre tremble le soir
    Listen and make your own on Suno.
    suno.com

    Als Vampir ist sie auch noch angenehm erfrischend.

    Ich hätte es so gemacht.

    Hinter dem anderen einen Schnitt, dann einen Clip, in dem man sieht, auf was sie zugeht, dann wieder einen Schnitt, mit dem Vampirclip, in dem nächsten Clip sieht man dann danach, dass sie es nicht übers Herz bringt, zuzubeißen.

    Was ich bald vergessen hätte, nach ein paar Tagen Pause, habe ich wieder Grok besucht, und erneut den Prompt ausprobiert. Läuft noch immer in einer Schleife, statt vier Bilder unendlich viele, bei knapp 200 wurde es aber langsamer. Nur gestern habe ich mich beeilt, und von denen, die mir in der kleinen Ansicht gefielen, etwa 85 als Favoriten markiert, damit die nicht erneut verschwinden. Als die Generierung langsamer wurde, das Fenster geschlossen, und von den 85 etwa 55 heruntergeladen. Diese sind jetzt in 720p, womit man schon etwas anfangen könnte, leider voller Fehler, wie häufig verkehrt sitzende Kutscher und erste Kutschen als E-Mobile.
    Noch schlimmer dann die Animationen, die KIs wurden nur auf die Erkennung von Straßen trainiert, nicht auf eine Unterscheidung von Fahrbahn und Gehwegen. Die Passanten müssen deshalb schnell bei Seite gehen, wenn eine Kutsche zum Abbiegen über den Gehweg fährt.


    Habe mir die Seite weiter oben (mit dem Bild von der mittelalterlichen Schlacht) noch etwas genauer angeschaut.

    Das ist erst einmal die Kernaussage (Übersetzung mit Google):


    1. Strukturierte Eingabe für KI-Bildgeneratoren


    Im Gegensatz zur natürlichen Sprache entfernt JSON-Prompt die inhärente Zweideutigkeit, die mit der natürlichen Sprache einhergeht. Da jedes Element separat definiert ist, können KI-Bildgeneratoren den Kontext, die Zusammensetzung und den Inhalt des erforderlichen Bildes besser verstehen und interpretieren. JSON-Aufforderungen funktionieren besser, wenn Ihre Anforderungen an die Bilderzeugung mehrere Details wie einen bestimmten Kamerawinkel, eine bestimmte Stimmung und eine Beleuchtung oder sogar strukturelle Details enthalten. JSON prompt lässt keinen Raum für Fehlinterpretation oder Rätselraten, um Klarheit zu schaffen.


    Das nutzt aber nichts, wenn man nicht weiß, welche Parameter welche KI versteht. So haben sie Beispiele für Nano Banana, Seedream v4, ImagineArt 1.0, Qwen-Image und Flux 1.1 Ultra veröffentlicht.


    Nun habe ich mir den Json-Prompt für Nano Banana von der Seite kopiert, füge den direkt ins Eingabefeld ein.

    Ergebnis, einer der ersten Entwürfe hat mir besser gefallen, nur ich dachte nicht daran, dass meine Voreinstellung noch auf Hochformat eingerichtet war.



    Nun kann man ChatGPT oder Gemini bitten, "Beschreibe mir, was Du auf dem Bild siehst als Json-Prompt für ...", und braucht danach keine Bildvorlage mehr.

    Fangen wir damit an, Gemini gefragt:


    1. Einstellungsgrößen (Distanz zum Motiv)

    Diese Befehle bestimmen, wie viel von deinem Motiv und der Umgebung zu sehen ist.


    Begriff,Beschreibung

    Extreme Close-up, Fokus auf ein Detail (z. B. nur das Auge oder eine Textur).

    Close-up, "Nahaufnahme, meist Kopf und Schultern."

    Medium Shot, Hüftaufwärts; ideal für Porträts mit etwas Kontext.

    Full Shot, Die gesamte Person von Kopf bis Fuß ist sichtbar.

    Wide Shot / Totale, "Das Motiv ist klein, die Umgebung steht im Vordergrund."

    Extreme Wide Shot, "Fokus auf die Landschaft, Personen sind nur noch winzige Punkte."


    2. Kameraperspektiven (Winkel)

    Hiermit steuerst du die "Aussage" des Bildes und die gefühlte Machtverteilung.


    Eye Level (Augenhöhe): Die Standardperspektive, wirkt neutral und ehrlich.

    Low Angle (Froschperspektive): Die Kamera schaut nach oben. Das Motiv wirkt mächtig, heldenhaft oder bedrohlich.

    High Angle (Vogelperspektive): Die Kamera schaut herab. Das Motiv wirkt eher klein, verletzlich oder überschaubar.

    Bird’s Eye View / Top-down: Senkrecht von oben (wie eine Drohne oder ein Grundriss).

    Worm’s Eye View: Extrem tiefer Winkel, direkt vom Boden aus.

    Dutch Angle (Gekippte Kamera): Die Kamera ist leicht schräg. Erzeugt ein Gefühl von Unbehagen, Chaos oder Dynamik.


    3. Spezialisierte Perspektiven

    Wenn du etwas Besonderes suchst, versteht Nano Banana auch diese Konzepte:


    POV (Point of View): Man sieht das Bild durch die Augen des Protagonisten.

    Over-the-Shoulder: Man schaut jemandem über die Schulter auf ein anderes Motiv.

    Macro Photography: Extrem nah dran, oft für Insekten, Blumen oder technische Details.

    First-Person Perspective: Ähnlich wie POV, oft im Stil von Videospielen.

    Satellite View: Sieht aus wie eine Aufnahme von Google Earth.

    Fisheye Lens: Ein extrem weiter, verzerrter Winkel (180 Grad).


    Das sollte auch Midjourney und andere verstehen, könnte ich mir vorstellen, gefragt hatte ich aber nur wegen Nano Banana.


    Ein Testbild wollte Gemini noch erstellen, braucht nicht sein, schrieb ich, mir ginge es nur um die Begriffe:


    "Ein Testbild brauchst du nicht erstellen, ich wollte es nur wissen, weil ich diese Ausdrücke nicht kannte, dann schrieb vom Kopf bis zu den Füßen, statt einfach Full Shot, wie ich jetzt sehe."


    Das ist das Schöne an modernen Modellen wie **Nano Banana**: Du *musst* die Fachbegriffe nicht zwingend kennen. „Vom Kopf bis zu den Füßen“ versteht die KI genauso gut wie „Full Shot“.


    Die technischen Begriffe sind oft nur eine Art „Abkürzung“. Wenn du „Full Shot“ schreibst, weiß das Modell sofort, was gemeint ist, ohne dass du Details wie Schuhe oder Haare extra betonen musst. Aber deine intuitive Beschreibung ist oft sogar präziser, wenn du eine ganz bestimmte Bildkomposition im Kopf hast.


    Hier ist ein kleiner Vergleich, wie die KI deine Beschreibungen übersetzt:


    | Deine Beschreibung | Profi-Begriff |

    | --- | --- |

    | „Man sieht nur das Gesicht ganz nah“ | **Close-up** |

    | „Von ganz weit oben herabblickend“ | **Bird's Eye View** |

    | „Schräg von unten fotografiert“ | **Low Angle** |

    | „Wie durch die Augen einer Person“ | **POV (Point of View)** |


    **Kleiner Tipp für die Zukunft:**

    Wenn du mal ein Bild generierst und merkst, dass die Kamera zu nah dran ist, hilft oft der Zusatz **„wide angle lens“** (Weitwinkelobjektiv). Das zwingt die KI quasi dazu, einen Schritt zurückzutreten und mehr von der Szene zu zeigen.


    Möchtest du noch mehr solcher „Geheimcodes“ für Lichtstimmungen oder Bildstile wissen, um deine Prompts noch kürzer zu machen?

    was ein potentioneller Nutzer wie fragt...

    Fragen werde ich damit garantiert nicht, das geht ja so wie bisher viel einfacher. Du musst Dir es vorstellen, wie im Daz Studio ein Preset von einer Figur mit Pose oder in Szene zu speichern.


    Muss es auch nicht sein,

    Für mich schon, weil ich z.B. kaum Kamerapostionen kenne, ohne diese nutzt eine Json nicht mehr als ein leeres Blatt Papier und im einfachen Prompt versteht eine KI auch nicht viel, wenn ich etwas von Kamerafahrt schreibe. Ganz gewiss haben die KIs dafür Fachausdrücke, schön wäre eine Liste mit diesen.


    So, habe mir die Json-Prompt-Vorlage abgespeichert und mit dem Notepad++ mit der Endung .json abgespeichert. Alles, was in Rot ist, sind nur Notizen, erst einmal herausgelöscht. Aber es ist ja nur eine Vorlage, mehr erst einmal nicht.


    Aber das werden viele bereits kennen, Daz Studio benutzt ja zum Speichern von Presets den gleichen inneren Aufbau, benutzt nur eine andere Endung dafür.