Neues AI-Tool: Was mit der Video-KI in Adobe Firefly möglich ist
Adobe hat das Firefly-Video-Modell in die öffentliche Beta entlassen. Nun kann man also auch in der Firefly-App KI-Videos per Text- und Bildeingabe generieren sowie automatisch Video- und Audioinhalte übersetzen. Ein Ersteindruck von dem, was mit Adobes Tools möglich ist und wie diese sich im Vergleich zu OpenAIs Sora schlagen.
Firefly generiert Videos mit 24 FPS in HD-Auflösung, je nach Wahl im Breitbild- oder Hochkant-Format. Die Laufzeit liegt bei 5 Sekunden. Wer Adobes Videogenerierung nutzen will, muss eines der Firefly-Pakete buchen.
| Firefly Standard | Firefly Pro | Firefly Premium | |
|---|---|---|---|
| Credits | 2.000 pro Monat | 7.000 pro Monat | 50.000 pro Monat |
| Video-Generierung | Bis zu 20 Fünf-Sekunden-Videos |
Bis zu 70 Fünf-Sekunden-Videos |
Bis zu 500 Fünf-Sekunden-Videos |
| Übersetzung | 6 Minuten Audio- und Videomaterial |
23 Minuten Audio- und Videomaterial |
166 Minuten Audio- und Videomaterial |
| Preis | 10,98 Euro monatlich Einführungspreis bis 15. März |
32,99 Euro monatlich Einführungspreis bis 15. März |
219,98 Euro monatlich |
Firefly Standard kostet 10,98 Euro pro Monat, Nutzer erhalten dafür 2.000 Credits, mit denen sich bis zu 20 Fünf-Sekunden-Videos generieren lassen. Automatisch übersetzen lassen sich damit bis zu 6 Minuten an Video- und Audio-Material. Bei Firefly Pro sind 32,99 Euro pro Monat fällig, damit erhalten Nutzer dann 7.000 Credits. Damit lassen sich 70 Fünf-Sekunden-Videos generieren oder 23 Minuten an Video- und Audio-Material übersetzen. Bei den Preisen handelt es sich um Einführungspreise, die zunächst bis zum 15. März 2025 gelten.
Neu bei der Firefly-Video-Beta sind die Tools Text-zu-Video sowie Bild-zu-Video sowie der Video- und Audio-Übersetzer.
Videos generieren mit der Firefly-Video-Beta
Um einen Eindruck von dem zu erhalten, was mit Firefly möglich ist, wurden verschiedene Settings ausgewählt, die sowohl Menschen als auch Landschaften und abstrakte Inhalte abbilden. Zum Vergleich wurden jeweils auch Videos mit OpenAIs Sora erstellt.
Text-zu-Video-Funktion: Skyline, Füchse, Cyberpunk und KI
Der Auftakt ist eine vergleichsweise einfache Aufgabe. Die Video-KI soll die Frankfurter Skyline im Zeitraffer darstellen. Firefly liefert ein ansprechendes Ergebnis, für die Skyline charakteristische Gebäude wie der Commerzbank-Tower und der Dom sind erkennbar – realistisch ist die Darstellung aber nicht. Generell fällt das Ergebnis etwas künstlicher als bei Sora aus, das einen – zumindest optisch – realistischeren Eindruck hinterlässt.
Was nach dem Sora-Start viral ging, waren zahlreiche Tiervideos. Nun also ein Versuch, so ein Video zu erstellen. Inhalt: Ein Fuchs, der durch einen Fluss in einem Wald schwimmt – die Aufnahme soll cinematisch sein. Das Ergebnis von Firefly Video hinterlässt einen ordentlichen Eindruck; die Farben sind satt, die Wasserdarstellung ist gelungen, nur die Fuchsbewegungen erinnern eher an einen Otter. Im Endeffekt trifft Firefly den Fuchs aber besser als Sora.
KI-Bildgeneratoren sind hilfreich, um Symbolbilder für Themen zu erstellen, die sich nicht ohne Weiteres mit Fotos abbilden lassen. Ein Beispiel ist etwa das Training von KI-Modellen. Der Prompt für die nächste Aufgabe lautet daher: „Symbolische Darstellung für das Training eines KI-Modells.“ Was Firefly darstellt, ist ein Tron-artiger Kopf mit typischem Gitternetz. Das Balkengebilde im Hintergrund wirkt jedoch eher unpassend. Wenn man den Prompt mehrfach generiert, erscheinen völlig abweichende Darstellungen.
Solche abstrakten Darstellungen funktionieren grundsätzlich, Sora liefert bei diesem Prompt aber ein passenderes und in sich schlüssigeres Video. Ein leuchtendes neurales Netzwerk in einem Raum mit futuristischen Displays und Schaltkreisen wirkt runder.
Ein Video-Konzept, das sich überraschend als Herausforderung entpuppte, war die Darstellung eines Manns im Cyberpunk-Setting. Der Ausgangsaufgabe war: „34jähriger blonder Mann mit synthetisch blau strahlenden Augen steht an einer Straße, es ist ein Cyberpunk-Setting, Neonleuchten und Schriftzüge im Straßenbild.“ Dieser Prompt wurde insgesamt mehr als 15 mal angepasst und umgebaut, das Ergebnis war bei Firefly aber immer durchwachsen.
Zu den Makeln zählen unter anderem:
- Artefakte, insbesondere an Gesicht und Händen
- Die synthetisch leuchtenden Augen wirken aufgesetzt
- Der Drei-Tage-Bart ist in der Regel ein Vollbart
In der Summe ist die Aufgabe wenig befriedigend gelöst worden. Was Sora bei diesem Prompt generiert, funktioniert deutlich besser. Generell scheint OpenAIs Video-KI Vorteile bei Personen zu haben. Ein Aspekt, bei dem sich der Beta-Status des Firefly-Video-Modells bemerkbar macht.
Kleinteilige Details zählen ebenfalls zu den Baustellen der Video-KIs. Ein Merkmal, das sich etwa zeigt, wenn ein Video generiert werden soll, in dem eine Grafikkarte in einem PC verbaut wird.
Welches Motiv gezeigt werden soll, ist sowohl bei Adobe als auch bei Sora erkennbar. Nur werden in beiden Videos PCs fehlerhaft dargestellt und die Grafikkarten lediglich abgelegt, aber nicht in den Slots eingesteckt.
Bild zu Video: Marktplatz und Hund
Anschließend noch zwei Testläufe, bei denen ein Bild als Vorlage für den ersten Frame verwendet wurde. Das erste Bild zeigt den historischen Marktplatz in Marburg, entstehen soll ein Zeitraffer-Video. Was Firefly als Video generiert, ist grundsätzlich funktional, allerdings wirkt das Video flimmernd. Insbesondere bei der Rathausfassade ist das auffällig. Mit mehreren Anläufen erhält man aber ein ansprechendes Ergebnis. Hilfreich ist in solchen Fällen, bei den Kamera-Einstellung „statisch“ zu wählen. Final ist das Ergebnis dann vergleichbar mit dem Sora-Video, das schon beim ersten Versuch wesentlich ruhiger wirkte. Generell sind solche Zeitraffer-Videos etwas, das die Tools gut umsetzen können.
Bildquelle: Stadtmarketing Marburg e. V.
Wenn Tiere ins Spiel kommen, sieht man hingegen erneut die Grenzen der Video-KIs. In diesem Fall ist es das Bild von einem Hund, der auf einer Wiese steht. Im Video soll er weglaufen. Was Adobe generiert, hat jedoch Macken. Eines der symptomatischen Probleme: Der zuckende Schwanz und das wabernde Fell.
An dieser Aufgabe scheitert aber auch Sora. Der erste Entwurf weicht weit von der Vorlage ab, der zweite Entwurf hat ebenfalls ein seltsames Bewegungsmuster und das Fell verwandelt sich.
Fazit: Noch holpert es bei den KI-Videos
Was man generell merkt, wenn man einige Zeit mit den Tools verbringt: Einfach so spucken diese keine Kurzvideos aus, die viral gehen könnten. Man muss Zeit investieren und an den Prompts arbeiten. Einer der hilfreichen Tipps ist dabei, den Prompt möglichst klar zu strukturieren, sodass Ort und Ablauf des Videos für das System nachvollziehbar sind. Um ein generelles Gespür zu bekommen, lohnt es sich vor allem, bestehende Videos anzuschauen. Bei Sora finden diese sich direkt im Tool, Adobe hat einen Discord-Kanal mit ausführlicher Tipps- und Tricks-Sektion.
Eine besondere Komfortfunktion bei Firefly sind die Kameraeinstellungen. Man kann direkt die Einstellungsgröße, Kameraperspektive und Bewegung auswählen. Was im Vergleich zu Sora fehlt, ist aber ein direkt integriertes Schnitt-Tool wie Storyboard, womit sich ein Video schnell in verschiedene Szenen mit angepassten Prompts gliedern lässt.
Was noch auffällt: Die begrenzte Anzahl an Credits. Selbst mit dem Pro-Abo rennt man schnell in das Limit, 7.000 Credits hat man an einem Vormittag verfeuert. Hoch ist der Verbrauch insbesondere für Videos, die nicht auf Anhieb brauchbare Ergebnisse liefern, wie es für diesen Artikel bei dem Cyberpunk-Mann der Fall war. Durchgetestet wurden rund 15 Prompt-Variationen, zudem wurden einzelne Prompts mehrfach generiert, weil der erste Test zu Fehlern führte. So ist man bei 23 Kurzvideos, also bereits rund einem Drittel des Credits-Kontingent – nur bei einem Thema.
Social Media im Blick
Festhalten lässt sich also: Filme generiert man mit den Tools nicht. Das Preismodell und der Fokus auf Kurzvideos ist aber ohnehin naheliegender für den Einsatz im Social-Media-Bereich. Und Stockmaterial für Reels lässt sich damit durchaus bereits generieren.
Bei Sora fällt die Qualität generell besser aus, Firefly merkt man noch den Beta-Status an. Allerdings sind die Firefly-Tools nunmal Teil von Adobes Creative Suite, was für sich genommen schon ein deutlicher Vorteil ist, wenn man Videos dann weiterverarbeiten möchte.
Interessant werden könnte in diesem Kontext noch das Text-zu-Avatar-Feature, bei dem ein Video mit einem virtuellen Avatar generiert wird, der ein bereitgestelltes Transkript vorliest. Diese Funktion soll demnächst verfügbar sein.
Automatische Übersetzungen von Video- und Audio-Dateien
Was bei der Vorstellung ebenfalls im Fokus stand, sind die automatischen Übersetzungen. Adobe bietet mit Firefly Tools, um sowohl Video- als auch Audio-Inhalte zu übersetzen. Ein Test mit Ausgabe #107 des CB-Podcasts, hier die erste Minute aus dem Podcast und zum Vergleich die erste Minute mit amerikanischem Englisch.
Grundsätzlich funktioniert es ordentlich. Wie gut die KI die Stimmen der Sprecher trifft, bleibt beeindruckend, was aber auffällt, ist die Betonung. So klingt Fabian im englischen Podcast ausgesprochen amerikanisch. Die Qualität der Übersetzung ist solide, bemerkbar sind aber einige der Alltagsprobleme, über die man beim Übersetzen stolpert. Dazu zählen etwa unvollständige Sätze im Original. Was in der gesprochenen Sprache gut klingt, wirkt in einem Transkript oftmals abgehakt und repetitiv.
So etwas ist dann auch in der Audio-Übersetzung spürbar. Beispiel ist folgender Absatz:
We won't call it the big Radeon special, we've just decided. I've done it anyway, but in the end we're sitting here again because AMD just had a livestream about the new Radeon graphics cards and I think that's the topic over the weekend.
Das ist eine adäquate Übersetzung von Fabians deutscher Vorlage. Würde man den Podcast direkt auf Englisch einsprechen, hätte man es aber sicher anders formuliert.
Beliebig Inhalte zu übersetzen ist mit dem Firefly-Tool aber nicht möglich. 5 Credits berechnet Adobe pro Sekunde bei Audio- und Video-Inhalten, bei einer lippensynchronen Übersetzung sind es 10 Credits pro Sekunde. Will man etwa rund 1 Minute des CB-Podcasts übersetzen, kostet es bereits 314 Credits. Insgesamt erklärt Adobe, dass man mit den 7.000 Credits im Pro-Abo bis zu 23 Minuten Video- und Audio-Material übersetzen kann. Bei Firefly Standard sind es bis zu 6 Minuten Material.
Heißt in der Praxis: Eine Podcast-Folge, die in der Regel über 30 Minuten gehen, bekommt man nicht übersetzt, ohne zusätzliche Credits zu kaufen. Für Social-Media-Videos, die in der Laufzeit in der Regel nicht über 1,5 Minuten hinausgehen, ist es ausreichend.
Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.