KI Software gesucht für YouTube Videos

Garwain

Cadet 4th Year
Registriert
Apr. 2024
Beiträge
106
Hallo,
ich suche eine KI-Software (kein Onlinetool, wo man Inhalte zum bearbeiten hochladen muss) und hoffe so etwas gibt es auch in der Form ;)

Was ich möchte:
  • Text in Sprache umwandeln (Jeweils zwischen 1 und 10 DinA Seiten Text)
  • Einen Avatar, entweder im Idealfall Lebensnah der dann möglichst Lippensynchron spricht.
  • oder ansonsten auch im Comic Stil oder anhand selbst erstellter Zeichnung.
  • Selbst gesprochene Texte in eine andere Stimme (möglichst die selbe, die auch bei Text zu Sprache verwendet wird) umwandeln.
  • Videos auch in längerer Form von 1-2 Std. erzeugen können, die man auf YT hochladen kann.
  • NIcht einzeln pro Vorgang zahlen, sondern nur einmal für die Software, höchstens etwas mit einem Jahresabo, aber unbegrenzter Nutzungsmöglichkeiten.
Gibt es da etwas oder muss man das irgendwie in separaten Schritten machen? Mit Videoschnitt bin ich noch nicht vertraut.
Später würde ich gerne noch ergänzend in die Videos Einblendungen von Bildern oder Textausszügen,, Quellenangaben oder Zitaten und Links einfügen. Aber dafür benötigt es wahrscheinlich eine weitere Software? Vielleicht hat da auch direkt jemand eine Empfehlung

Danke schon mal
 
Hast du den auch die passende KI Hardware zuhause? Soll ja scheinbar lokal laufen bei dir, ansonsten muss man ja immer Inhalte hochladen.
 
  • Gefällt mir
Reaktionen: aluis und TorenAltair
Realistisch bewegst dich da halt in 3-4Minuten Abschnitten die dann zusammen geschnitten werden. Tools wie HeyGem erlauben dir schon bis zu 30 Minuten Videos, aber der Output ist dabei wesentlich schlechter als bei kleineren Segmenten. Üblicherweise landet man dann doch bei Cloudlösungen oder separaten ComfyUI + Whisper. Die Kunst dabei ist nicht möglichst lange Videos zu produzieren sondern die Qualität, Lipsync, Voiceoutput gut zu halten. Zusammenschneiden kann dir das jedes Beliebige AI Tool oder eben selbst per Videoeditor.
 
Für Text in Sprache nehm ich VoxCPM2. Funktioniert gut und kann auch Stimmen klonen.
Wenn ich das mit Avatar als Video haben will, dann nehm ich InfiniteTalk. Beides geht einfach per ComfyUI und ist selbstverständlich kostenlos.
Um gesprochene Stimme in eine andere umzuwandeln, würde ich ganz einfach ein Transkript erstellen und das als Text in VoxCPM2 eingeben und neu erzeugen.
1-2 Stunden Video erfordern wohl Hardware für mehrere Hunderttausend, da kann ich nichts zu sagen, ich nutze billige Consumer-Hardware mit extrem wenig Speicher (RTX 4090 mit 24 GB)
 
Zuletzt bearbeitet:
Wenn du mit KI lokal arbeiten willst, brauchst du Hardware und wärst selbst mit einer rtx5090 limitiert. Wenn du Cloud benutzt, dann musst du definitiv zahlen.
 
  • Gefällt mir
Reaktionen: M-X
Was ich möchte:
  • Text in Sprache umwandeln (Jeweils zwischen 1 und 10 DinA Seiten Text) <- Easy
  • Einen Avatar, entweder im Idealfall Lebensnah der dann möglichst Lippensynchron spricht. <- Easy
  • oder ansonsten auch im Comic Stil oder anhand selbst erstellter Zeichnung. <- Easy (OpenAI)
  • Selbst gesprochene Texte in eine andere Stimme (möglichst die selbe, die auch bei Text zu Sprache verwendet wird) umwandeln. (ElevenLabs)
  • Videos auch in längerer Form von 1-2 Std. erzeugen können, die man auf YT hochladen kann. (1-2 Stunden....entweder du hast paar RTX 6000 PRO oder ein Enterprise Abo bei ComfyUI / Kling.AI)
  • Nicht einzeln pro Vorgang zahlen, sondern nur einmal für die Software, höchstens etwas mit einem Jahresabo, aber unbegrenzter Nutzungsmöglichkeiten. (Unbegrenzt kann nur eigene Hardware, ansonsten wirst du immer Tokenbasierend abgerechnet falls dein fester Plan überschritten wird)
Aber insgesamt ist dein Workflow entweder auf mehrere Tools aufzuteilen oder du baust dir passend via ComfyUI etwas, was alles mit einmal macht, das ist möglich. Entweder eigene Hardware ab 20k oder Leasing oder du legst paar Tausis für Enterprise Abos hin pro Jahr. Was noch geht ist mehrere Tools mit n8n oder AI Agents verknüpfen und Headless Vollauto Mode nachdem die ersten Tests erfolgreich waren.

Aber Anhand deiner Erklärung scheinen schon die Grundverständnisse von AI zu fehlen und wie das überhaupt alles funzt. Deswegen klein Anfangen und probieren.

Und dann: Wenn du der Meinung bist mit deiner Produktion die laufenden Kosten reinzuholen pro Monat + Gewinn, dann kannst du direkt starten und ich berate dich gerne für paar € :)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: drrrk und iSight2TheBlind
Garwain schrieb:
Videos auch in längerer Form von 1-2 Std. erzeugen können, die man auf YT hochladen kann.
Videogenerierung geht bisher nur kurze Schnippsel, die zusammengefügt werden müssen.
Entweder automatisch beim Online Vollsortimenter oder per Hand.

Garwain schrieb:
NIcht einzeln pro Vorgang zahlen, sondern nur einmal für die Software, höchstens etwas mit einem Jahresabo, aber unbegrenzter Nutzungsmöglichkeiten.
Das geht nur bei lokaler Generierung mit eigener Hardware.
Videogenerierung braucht besonders viel Rechenleistung, das wird dir keiner unbegrenzt zum Festpreis bereitstellen.

adfsrg schrieb:
ich nutze billige Consumer-Hardware mit extrem wenig Speicher (RTX 4090 mit 24 GB)
:stacheln:
 
  • Gefällt mir
Reaktionen: chr1zZo und iSight2TheBlind
Ok, also das das so viel Hardware benötigt, wusste ich nicht.
24GB Ram meinst du? Und das ist für dich wenig? Ok :D
Habe einen Ryzen 7 7800X3D, RTX4090 Super mit 16 GB, 16 GB Ram
Rechner ist nicht mal ein Jahr alt.

Wenn ich Immer nur kurze Spracheaufnahmen erzeuge, ist es dann einfach, diese aneinander zu reihen, um das ganze flüssig darzustellen?
Gibt es da ein gutes Tool (bitte auf Deutsch übrigens ;)) ?

Wenn ich Text in Sprache umwandel mit KI, vermute ich mal, dass es schwierig wird das dort auch die richtige Bentonung, Pausen etc. erzeugt werden. Ich vermute nämlich, dass die KI den Text nicht verstehen wird inhatlich. Daher glaube ich, es wäre besser wenn ich den Text vielleicht doch besser selbst spreche und dann halt per KI in eine andere Stimme umwandel. Sollte dann ein besseres Ergebnis liefern, oder?
Das ginge mit VoxCPM2? Sehe da nur die Option Text anzugeben der gesprochen werden soll und eine Audio Probe hochzuladen ist, aus der die Stimme erzeugt werden soll.

Sobald ich dann die Sprachdatei so habe, wie ich es mir vorstelle, müsste ich ein Video erstellen mit dem Avatar und dort dann die Audio hinzufügen (welches Programm wäre dazu dann gut?) und per KI die Lippensynchro bearbeiten lassen.

Soweit richtig?

P.S.: Das Ganze ist für ein privates Projekt, womit ich kein Geld verdienen will. Es sind Videos zur Selbsthilfe und Information. Ich möchte meine bisherige Homepage in leicht gekürzter Fassung in Form von Videos auf der HP anbieten und auf YT dazu eingie ebenfalls hochzuladen, vielleicht auch alle, mal sehen. Denn leider erreicht man ja heute mit Foren bzw, Seiten mit viel Text nur noch wenige Menschen (was ich nicht verstehe, da ich in einem Text viel besser etwas rausziehen kann was ich mir merken will, jederzeit Passagen überfliegen kann etc. In Videos finde ich es eigentlich immer nervig, da man ja nicht sehen kann, ob das Thema wirklich so betrachtet wird wie in der Überschrift zu entnehmen ist. Oft genug Videos gesehen, wo die eigentliche Frage gar nicht beantwortet wurde und man dazu dann ewig Zeit verschwendet hat :D

Auf die Idee gekommen, das per KI Avatar und veränderter Stimme zu machen, bin ich durch Videos ähnlicher Art. Da wurden 2 Stunden Interview von Betroffenen durch KI entsprechend verfremdet.
 
Text to Speech mit Voice Cloning ist kein Problem mit deiner Hardware. Deutsche Sprachmodelle sind aber schwieriger zu handeln als Englische. Bei Video ist die GPU okay, vermutlich eher einer 4080 Super, aber 16RAM ist auch nicht die Welt. Wieso machst du nicht ein Insta Kanal mit Shorts/Reels sowie YT Shorts die dann auf deine Webseite weiterleiten? So erreichst du viel mehr, je nachdem wieviel Leute dein Thema interessiert.

Deine beobachtung zu den Videos: Somit zieht man sich Views, auch wenn der Betrachter das Video abbricht, weil der eigentliche Inhalt fehlt. Marketingtrick ^^
 
  • Gefällt mir
Reaktionen: iSight2TheBlind
chr1zZo schrieb:
mit deiner Produktion die laufenden Kosten reinzuholen pro Monat + Gewinn, dann kannst du direkt starten und ich berate dich gerne für paar € :)
Was fürn blöder Spruch. Das wäre als wenn du hier kostenpflichtige Beratung anbieten willst, wenn einer einen PC zusammen baut.

Der TE wollte wohl nur einen Überblick haben, wie er einsteigen könnte, und weiß noch nicht was mehr oder weniger möglich ist. Wenn du dich im CB Forum anbieten musst, scheint deine Expertise ja nicht so gut zu laufen.
 
  • Gefällt mir
Reaktionen: R4Z3R
@aluis und dein Beitrag nützt jetzt dem TE genau was? Und Sarkasmus scheinst du auch nicht zuverstehen.
 
Garwain schrieb:
24GB Ram meinst du? Und das ist für dich wenig? Ok :D
Ich meinte 24 GB auf der GraKa. Und ja, das ist sogar so extrem wenig, dass es gar nicht möglich ist damit ein Video in der von dir genannten Länge zu erzeugen. Da brauchst du richtige Hardware mit hunderten oder tausenden GB und kein Spielzeug.
Garwain schrieb:
Habe einen Ryzen 7 7800X3D, RTX4090 Super mit 16 GB, 16 GB Ram
Rechner ist nicht mal ein Jahr alt.
4090 Super gibt es nicht und wenn hätte die mehr als 16 GB. Die normale hat ja schon 24.

Sind 16 GB RAM (also der normale) nicht verdammt wenig? Wenn ich mit KI arbeite, hab ich meine 64 GB meist fast voll.
Ergänzung ()

Garwain schrieb:
Wenn ich Immer nur kurze Spracheaufnahmen erzeuge, ist es dann einfach, diese aneinander zu reihen, um das ganze flüssig darzustellen?
Das Aneinanderreihen ist im Prinzip simpel. Ich glaub ich würde das einfach mit ffmpeg per Konsole machen. Oder direkt im Videoschnittprogramm.
Ergänzung ()

Garwain schrieb:
Wenn ich Text in Sprache umwandel mit KI, vermute ich mal, dass es schwierig wird das dort auch die richtige Bentonung, Pausen etc. erzeugt werden.
Hör es dir doch einfach mal an. Ich hab mit VoxCPM2 aus diesem Satz eine Audiodatei erzeugt.
Ergänzung ()

Garwain schrieb:
Das ginge mit VoxCPM2?
Nein, nur Text To Speech, kein Direct Voice Conversion
 

Anhänge

Zuletzt bearbeitet:
Garwain schrieb:
Und das ist für dich wenig? Ok
Für größere Sprachmodelle will man schon 512-1024GB VRAM haben.
Und Vergleichbar viel ram schadet nicht.
Videos generieren braucht weniger Speicher, aber mehr compute.

24gb sind für Videos zu wenig..
Du musst das komplette Video, jeden einzelnen frame im VRAM halten.
Bei8 bit Farbtiefe(sdr), sind das 3 Byte pro Pixel. Bei 4k landest du dann bei 25mb/frame. Bei 30fps also knapp 1gb pro Sekunde.
Das ist dein zeitlich sortierte Kontext, und jeder frame in der Zukunft hängt von den bisherigen ab. Dazu alle Beteiligten Modelle.
Wenn du gescheite Auflösung willst, ist das der Weg:

https://www.idealo.de/preisvergleich/OffersOfProduct/206328547_-rtx-pro-6000-blackwell-nvidia.html

Oder H100 / M350 stundenweise mieten und deployen.

Billig geht es auch auf einem Mac Studio m3 Ultra mit 128 GB RAM.

Modelle für alles was du willst gibt es. Das tooling Wie du es brauchst kannst du relativ easy vibecoden. FFMPEG zum schneiden, sync und encoding.
Modelle deiner wahl zum generieren.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: chr1zZo
Zurück
Oben