Berta vom 3D modell zur KI

jobojobo · 9. Oktober 2025

Ich habe Berta in eine KI gefüllt! dazu habe ich ein umfangreichen prompt entwickelt der prompt ist 248 000 Zeichen lang. der prompt lässt sich auf alle LLM anwenden dessen kontext fenster gross genug ist local und öffendlich auf severn. außerdem habe ich eine lokale sprechmaschine entwickelt aus verschiedenen KI Modellen. dadurch kann Berta jetzt auch sprechen.
wer Interesse hat sich das mal anzuschauen, der kann hier:
https://www.zuendfunken-protokol.de/index.php/podcasts-mp4

einen Auszug hören es sind alles abgeschlossene salbt erstelle Podcasts und Monologe von und mit Berta ( Die stimme von Berta ist von meiner Freundin Karin eingesprochen worden und wird von der sprechmaschine in 28 unterschiedlichen Emotions lagen verwendet) die ausgegebene Sprache ist voll synthetisch und stimmen klonend.)
wie die sprech maschine genau fuktioniert las ich mal ki formulieren da ich das übersichtlicher find als wenn ich versuche die deteils zu sortieren. die entwicklungs dauer des gesambten projeckte kann ich mit 8 wochen bis her angeben.

Technische Details: Die "Berta Voice UI" Pipeline

Die "Berta Voice UI" ist eine vollständig lokal betriebene Anwendung zur Erstellung von hochwertigen, emotional steuerbaren Audio- und Videoinhalten. Die Architektur ist als eine Pipeline konzipiert, in der verschiedene spezialisierte KI-Modelle und Werkzeuge nacheinander Aufgaben erfüllen, um vom Rohtext zum finalen Medien-Export zu gelangen.

Die Architektur im Überblick

Die Anwendung basiert auf Python 3.10 und wird über eine Benutzeroberfläche von Gradio gesteuert. Die Kernlogik ist in mehrere Skripte aufgeteilt:

app.py: Startet die Weboberfläche und steuert alle UI-Elemente und Nutzerinteraktionen. synthesize.py: Das Herzstück, das den Text, die gewählten Emotionen und Parameter entgegennimmt und den gesamten Prozess der Sprachsynthese, Qualitätssicherung und des Exports steuert. speakers_config.py: Eine zentrale Konfigurationsdatei, die jeden Emotions-Marker (z.B. [berta_lustig]) einer spezifischen Referenz-Audiodatei zuordnet. emotion_filter.py: Ein optionales Modul, das eine KI-gestützte Analyse des Rohtextes durchführt, um Emotions-Marker automatisch vorzuschlagen.

Verwendete KI-Modelle & Werkzeuge

Die Pipeline kombiniert mehrere spezialisierte KI-Modelle, um den Workflow zu realisieren: Sprachsynthese (Die Stimme): Coqui.ai's XTTS v2 Diese KI ist die eigentliche "Sprechmaschine". Sie nimmt ein Textsegment und eine Referenz-Audiodatei (z.B. eine Aufnahme von Berta, die fröhlich klingt) und erzeugt daraus eine neue Sprachaufnahme, die den Text im emotionalen Tonfall der Referenz spricht (Voice Cloning). Spracherkennung (Das Ohr): OpenAI's Whisper (large) Dieses Modell hat zwei Aufgaben:Diktierfunktion: Es wandelt Spracheingaben über das Mikrofon in Rohtext um. Qualitätssicherung (QA): Nachdem XTTS ein Audio-Snippet erzeugt hat, hört Whisper zu und transkribiert das Ergebnis. So wird überprüft, was die KI tatsächlich gesagt hat. Semantischer Vergleich (Die Qualitätskontrolle): paraphrase-multilingual-MiniLM-L12-v2 Nachdem Whisper das Ergebnis transkribiert hat, vergleicht dieses Modell die Bedeutung des Originaltextes mit der des Transkripts. Es berechnet einen prozentualen Ähnlichkeitswert ("Plausibilität"). Fällt dieser Wert unter einen bestimmten Schwellenwert, wird das Audio-Snippet verworfen und die Synthese wiederholt, um Fehler zu vermeiden. Emotionsanalyse (Der Regie-Assistent): ChrisLalk/German-Emotions Dies ist ein deutsches BERT-Modell, das darauf trainiert ist, Emotionen in Texten zu erkennen. Es wird im emotion_filter.py verwendet, um den Rohtext zu analysieren und automatisch Vorschläge für die Emotions-Marker zu generieren. Tiefenanalyse (Der KI-Regisseur): Lokales LLM via Ollama Für eine tiefere, narrative Analyse kann optional ein lokales großes Sprachmodell (z.B. Command-R) über die Ollama-Schnittstelle angesteuert werden. Dies dient dazu, subtilere emotionale Stimmungen oder eine bestimmte Atmosphäre im Text zu erkennen. Videoerstellung (Der Cutter): FFMPEG Dieses universelle Multimedia-Werkzeug wird direkt über ein Skript aufgerufen, um die finale, kombinierte Audiodatei mit einem Standbild (entweder hochgeladen oder ein Standard-Ersatzbild) zu einem .mp4-Video zusammenzufügen.

Kushanku · 9. Oktober 2025

Wir haben eigentlich kein richtiges Unterforum für diese Art von Zeugs. Ich lasse es im Moment im Café. Auch die direkten Links lasse ich hier zu, da das Dein eigenes Werk ist.

ritch · 14. Oktober 2025

Sehr gut, Maestro

Poste das mal auf YT.

Thunder666 · 14. Oktober 2025

Also das ist sehr bedeutsam ! Ich suche schon eine ganze Zeit nach reagierender Sprach KI die Emotionen, unterschiedliche Geschwindigkeiten(betonen usw.) und vor allem Akzente( US, Ru. usw. ) beherrscht. Kann dieses Protokoll solche Dinge ?

jobojobo · 14. Oktober 2025

Zitat von Thunder666

Kann dieses Protokoll solche Dinge ?

ja das müsste gehen, es kann 200 sprachen hin und her übersetzten und basiert auf 28 kurzen sprech mustern. die von karin eingesprochen wurden. die kannst du mit einem sprecher /in selber füllen .
sogar direckt im skript.
alerdings ist das eine komplizierte kiste weil mehrere expert KI´s unter der haube arbeiten das war schwierig die richtigen paket abhängigkeite untert wsl zu erzeugen.
ich kann dir anbieten das ich daa system online zugänglich mache damit du mal testen kannst. das müssen wir aber absprechen damit das system jetzt nicht eine woch im lehrlauf arbeitet.

diese texte sind zu sprechen wenn du eigene sprecher einsetzten möchtest.

-------------------------------------------------------------------------------------

1. STIMMUNG: EPISCH

(bedeutungsvoll, getragen, feierlich)

Es war in jener Zeit, als die Elbe noch das Flüstern alter Geschichten trug und die Möwenlieder von fernen Küsten kündeten. Da erhob sich aus dem Nebel eine Vision, so gewaltig, dass sie den Horizont sprengte. Eine neue Ära brach an, getragen von dem unerschütterlichen Willen jener, die das Licht in die Dunkelheit bringen wollten. Ein Versprechen, das in den stürmischen Winden der See lag, ewig und unvergänglich.

2. STIMMUNG: MELANCHOLISCH

(ruhig, nachdenklich, leicht traurig)

Manchmal, wenn der Regen leise gegen die Fensterscheiben prasselt und das Licht der Laternen golden schimmert, dann denk' ich zurück. An die kleinen Momente, die längst vergangen sind, wie Wellen, die sanft an den Strand gleiten. Ein stiller Abschied von dem, was war, doch in jeder Pfütze spiegelt sich noch ein Stückchen Himmel wider, so klein, so zerbrechlich.

3. STIMMUNG: LUSTIG

(humorvoll, verspielt, leicht)

Letztens stand ich so am Fischmarkt, mitten im Getümmel, und da ruft doch einer: "Ey, du Pfeffersack, haste mal'n Euro?" Ich musste so lachen! Hab ihm dann gesagt: "Wenn ich ein Pfeffersack wär', hätt ich dir 'ne ganze Packung gegeben, aber so hab ich nur meine fünf Euro für'n Fischbrötchen!" War schon'n Ding, da hat die ganze Reihe mitgeschmunzelt.

4. STIMMUNG: ENTSCHLOSSEN

(klar, zielgerichtet, direkt)

Wir stehen jetzt hier, direkt am Kai, und es gibt kein Zurück mehr. Der Plan ist klar, die Richtung auch. Jede Schraube sitzt, jeder Schritt ist wohlüberlegt, denn wir wissen genau, was wir wollen. Wir packen das jetzt an, mit voller Kraft und dem Blick fest nach vorn. Keine halben Sachen mehr. Jetzt wird durchgezogen, bis die letzte Lampe leuchtet, und kein Zweifel bleibt.

5. STIMMUNG: SARKASTISCH

(spöttisch, ironisch, trocken)

Ach ja, die viel gepriesene "digitale Transformation". Neulich hat mir jemand erklärt, wie wichtig es ist, "agil" zu sein und "Synergien" zu schaffen. Ich dachte, da muss ich wohl meine alte Schreibmaschine in ein Skateboard umbauen und dann "innovativ" rückwärts zur Arbeit fahren, während ich dabei "disruptive Geschäftsmodelle" pitche. Klingt ja auch viel effizienter, oder? Total logisch.

6. STIMMUNG: GEHEIMNISVOLL

(leise, andeutend, zurückhaltend)

Tief unter den alten Speichern, wo das Licht nur spärlich hinfällt und die Zeit stillzustehen scheint, da liegt etwas verborgen. Ein Flüstern in den alten Mauern, eine Melodie, die niemand je ganz gehört hat. Es ist ein Geheimnis, gewebt aus Staub und alter Zeit, das nur der finden wird, der nicht sucht, sondern lauscht. Manchmal, im Stillen, da hör ich's.

7. STIMMUNG: NEUTRAL

(sachlich, nüchtern, ohne erkennbare emotionale Färbung)

Die Wetterlage für morgen: Ein schwacher Hochdruckeinfluss sorgt für vorwiegend bewölkten Himmel über der Stadt Hamburg. Die Temperaturen liegen tagsüber bei etwa fünfzehn Grad Celsius. Niederschläge sind für den gesamten Tag nicht zu erwarten. Der Wind weht schwach aus nordwestlicher Richtung, mit einer Stärke von etwa drei Beaufort.

-----------------------------------

Quelltexte für Karin (Sprecherin) – Fehlende Emotionen

1. STIMMUNG: ADMIRATION

(Bewunderung, Hochachtung)

Beispieltext: "Was du da geschaffen hast, ist einfach atemberaubend. Ich bin zutiefst beeindruckt von deinem Talent und deiner Hingabe. Das ist wahre Meisterschaft!"

2. STIMMUNG: AMUSEMENT

(Belustigung, Vergnügen, Heiterkeit)

Beispieltext: "Haha, das ist ja köstlich! Ich kann nicht aufhören zu lachen, das ist wirklich zu komisch. Mir kullern ja die Tränen vor lauter Vergnügen!"

3. STIMMUNG: ANGER

(Wut, Zorn, Ärger)

Beispieltext: "Das ist absolut inakzeptabel! Ich bin fassungslos vor Wut über diese Dreistigkeit. So etwas lasse ich mir definitiv nicht gefallen!"

4. STIMMUNG: ANNOYANCE

(Ärger, Verärgerung, Irritation)

Beispieltext: "Ugh, das ist wirklich nervig. Warum muss das immer wieder passieren? Es ist einfach frustrierend, wenn sich solche Kleinigkeiten ständig wiederholen."

5. STIMMUNG: APPROVAL

(Zustimmung, Billigung, Anerkennung)

Beispieltext: "Ja, genau so! Das ist eine hervorragende Idee und ich stimme dir vollkommen zu. Das wird sicherlich zum Erfolg führen."

6. STIMMUNG: CARING

(Fürsorge, Anteilnahme, Zuneigung)

Beispieltext: "Mach dir keine Sorgen, ich bin für dich da. Lass uns gemeinsam eine Lösung finden. Du bist mir wichtig, und ich möchte, dass es dir gut geht."

7. STIMMUNG: CONFUSION

(Verwirrung, Unklarheit)

Beispieltext: "Moment mal, das verstehe ich jetzt überhaupt nicht. Wie hängt das zusammen? Ich bin gerade völlig verwirrt, das ergibt für mich keinen Sinn."

8. STIMMUNG: CURIOSITY

(Neugier, Wissbegierde)

Beispieltext: "Erzähl mir mehr! Was ist als Nächstes passiert? Ich bin wirklich gespannt und möchte jedes Detail wissen."

9. STIMMUNG: DESIRE

(Verlangen, Wunsch, Sehnsucht)

Beispieltext: "Ach, wenn ich das doch nur haben könnte... Ich wünschte so sehr, dieser Traum würde wahr werden. Eine tiefe Sehnsucht erfüllt mich."

10. STIMMUNG: DISAPPOINTMENT

(Enttäuschung, Ernüchterung)

Beispieltext: "Das ist wirklich schade. Ich hatte mir so viel davon versprochen, aber es ist leider anders gekommen. Ich bin ziemlich enttäuscht."

11. STIMMUNG: DISAPPROVAL

(Missbilligung, Ablehnung)

Beispieltext: "Nein, das geht so gar nicht. Das kann ich auf keinen Fall gutheißen. Das ist eine Entscheidung, die ich nicht unterstützen kann."

12. STIMMUNG: DISGUST

(Ekel, Abscheu, Widerwille)

Beispieltext: "Igitt, das ist ja widerlich! Allein der Gedanke daran lässt es mich schütteln. So etwas Ekelhaftes habe ich noch nie erlebt!"

13. STIMMUNG: EMBARRASSMENT

(Verlegenheit, Peinlichkeit)

Beispieltext: "Oh Gott, ist mir das jetzt peinlich! Ich möchte am liebsten im Erdboden versinken. Das hätte wirklich nicht passieren dürfen."

14. STIMMUNG: EXCITEMENT

(Aufregung, Begeisterung, Spannung)

Beispieltext: "Unglaublich! Ich bin total aufgeregt und kann es kaum erwarten! Das wird fantastisch, ich platze fast vor Begeisterung!"

15. STIMMUNG: FEAR

(Angst, Furcht, Befürchtung)

Beispieltext: "Was war das?! Mein Herz rast. Ich habe wirklich Angst davor, was als Nächstes passieren könnte. Das ist beängstigend."

16. STIMMUNG: GRATITUDE

(Dankbarkeit, Anerkennung)

Beispieltext: "Ich bin dir unendlich dankbar für deine Hilfe. Das bedeutet mir wirklich viel. Ohne dich hätte ich das niemals geschafft, vielen, vielen Dank!"

17. STIMMUNG: GRIEF

(Trauer, Kummer, Gram)

Beispieltext: "Es tut so weh. Der Schmerz ist kaum zu ertragen. Ich bin zutiefst traurig und vermisse es so sehr."

18. STIMMUNG: JOY

(Freude, Frohsinn, Glückseligkeit)

Beispieltext: "Juhu! Das ist einfach wunderbar! Ich bin so glücklich und könnte die ganze Welt umarmen. Was für eine reine Freude!"

19. STIMMUNG: LOVE

(Liebe, Zuneigung, Herzlichkeit)

Beispieltext: "Du bedeutest mir alles. Ich habe dich so lieb, das Gefühl in meinem Herzen ist unbeschreiblich. Du bist einfach wunderbar."

20. STIMMUNG: NERVOUSNESS

(Nervosität, Anspannung, Unruhe)

Beispieltext: "Mir ist ganz flau im Magen. Ich bin so nervös, ich kann kaum stillsitzen. Hoffentlich geht alles gut."

21. STIMMUNG: OPTIMISM

(Optimismus, Zuversicht, positive Erwartung)

Beispieltext: "Ich bin absolut zuversichtlich, dass wir das schaffen werden! Die Zukunft sieht rosig aus, ich blicke voller Hoffnung voraus."

22. STIMMUNG: PRIDE

(Stolz, Hochmut)

Beispieltext: "Ich bin unglaublich stolz auf das, was wir erreicht haben. Das ist ein wahrer Triumph und wir können wirklich erhobenen Hauptes dastehen."

23. STIMMUNG: REALIZATION

(Erkenntnis, Einsicht, Verstehen)

Beispieltext: "Ah, jetzt verstehe ich! Mir ist ein Licht aufgegangen. Das war die ganze Zeit die Lösung, ich sehe es jetzt ganz klar."

24. STIMMUNG: RELIEF

(Erleichterung, Entlastung)

Beispieltext: "Puh, endlich! Ein Stein fällt mir vom Herzen. Ich bin so erleichtert, dass das Ganze vorbei ist. Was für eine Entlastung!"

25. STIMMUNG: REMORSE

(Reue, Bedauern, Gewissensbisse)

Beispieltext: "Es tut mir aufrichtig leid, was ich getan habe. Ich bereue es zutiefst und wünschte, ich könnte es ungeschehen machen."

26. STIMMUNG: SADNESS

(Traurigkeit, Melancholie)

Beispieltext: "Eine tiefe Traurigkeit überkommt mich. Es ist schwer, die Tränen zurückzuhalten. Ich fühle mich so niedergeschlagen."

27. STIMMUNG: SURPRISE

(Überraschung, Erstaunen, Verblüffung)

Beispieltext: "Was?! Das ist ja unglaublich! Ich bin total überrascht, damit hätte ich niemals gerechnet. Wow, einfach verblüffend!"

jobojobo · 14. Oktober 2025

an mehreren stellen im programm findest du kleine pfeile, dahinter verbergen sich auf klap bare funktionen.

Thunder666 · 14. Oktober 2025

ALDAAAA . ich melde mich auf jeden Fall, bin im Moment etwas unpässlich .Kann ein wenig dauern, aber das will ich ausprobieren Das wäre ja der Oberoberburner

P.S. ich vermute einfach mal das männlich/weiblich integriert ist ?

jobojobo · 14. Oktober 2025

Zitat von Thunder666

P.S. ich vermute einfach mal das männlich/weiblich integriert ist ?

ja in meiner version gibt es einnen ruihgen mänlichen sprecher. aber es hängt eigendlich nur von den sprach proben ab.
du bekommst dann das Karin / sprecher mänlich set zum aus probieren alerdingst muss ich das set manuel sichern fals du bock auf kaos hast . und dein erstelltes set müste ich dir dann ebenfals manuel sichern und zu kommen lassen.

Thunder666 · 14. Oktober 2025

Zitat

ich dir dann ebenfals manuel sichern und zu kommen lassen.

+ ein Tut bitte ?! : Wie groß ist denn das Ganze ?

Hallo Gast,

gefällt dir der Thread, willst du was dazu schreiben, oder möchtest du noch mehr in diesem Forum sehen und kostenlose Downloads?

Dann melde dich bitte an.
Hast du noch kein Benutzerkonto, dann bitte registriere dich, nach der Freischaltung kannst du das Forum uneingeschränkt nutzen.

Hello Guest,

Do you like the thread, do you want to write something about it, or do you want to see more in this forum and free downloads?

Then please sign in.
If you don't have an account yet, please register, after activation you can use the forum without any restrictions.

Berta vom 3D modell zur KI

Technische Details: Die "Berta Voice UI" Pipeline

Die Architektur im Überblick

Verwendete KI-Modelle & Werkzeuge

Kushanku 9. Oktober 2025

Teilen

Tags