Mission KI-TV-Format | Folge 05 | Die Avatare | KREA.ai
Los geht’s Leute, ich werf mal KREA.AI an. KREA.AI ist schon seit langem mein go-to-ai-tool, um Bilder zu generieren. Für mich immer die Grundlage. Klar hab ich auch schon mit Text to Video rumprobiert – aber der Workflow funktioniert für mich so nicht. Ich warte Minutenlang auf ein einziges Video, um dann erneut zu prompten und wieder zu warten. da lasse ich mir lieber in kürzester zeit 4, 8, oder 80 Bilder generieren, bis ich das für mich perfekte Ausgangsmaterial habe und dann geht es erst an die Video Generierung.
So hab ich es auch hier gemacht. Für die neueste Geschichte brauche ich eine 25 jährige Lehrerin. Und ich wollte, dass sie im Klassenzimmer steht. Das Ergebnis hier fand ich super – aber beim Upscaling hat sich dann ein bekannter Fehler eingeschlichen. Hände sind anscheinend immer noch ein großes Problem… Also weiter prompten. Ich bin übrigens ein großer Fan von simplen Prompts. “eine 25jährige Lehrerin vor der Klasse” Ich muss jetzt nicht erst die Lichtstimmung definieren und mir ausdenken, was auf der Tafel stehen soll.
Wenn ich noch etwas spezielles brauche, kann ich es ja später einfügen. Das geht bei KREA.AI jetzt mit dem neuen Flux Kontext. Dieses Modell versteht, was es sieht und versteht “meistens”, was man von ihm will. Ich hab hier mal kurz ein Foto von mir bearbeitet. Hat der Kollege Oli Portmann aus München geschossen. Grüße!
Mich hat das Schild im Hintergrund gestört – also hab ich Flux Kontext mal darauf losgelassen. Und siehe da – Schild ist weg als wäre es nie da gewesen. OK – das kann Photoshop auch sagst du – stimmt! Hab ich hier mal ausprobiert. In Photoshop geht es aber immer um Selektieren und dann generieren. In KREA.AI führe ich ein Gespräch. Ich muss das Schild nicht markieren, um es zu entfernen. Ich muss nicht den Körper auswählen, um darauf einen Anzug zu packen. Ich kann es einfach sagen. Das ist für mich wirklich eine der beeindruckendsten Fähigkeiten von AI. AI versteht immer besser, was ich meine. Natürlich wird auch meine Art zu fragen besser. Aber nicht in dem Ausmaß! Am meisten wird es mir gerade bewußt, wie schnell die Entwicklung geht, wenn ich mit meinem Amazon Sprachassistenten rede. Das fühlt sich an wie Steinzeit. JA – ich kann damit meine Lampen per Sprache bedienen. Musik abspielen. Kalendereinträge vornehmen. Aber sobald es etwas schwieriger wird, ist die aktuell eingebaute Intelligenz am Ende. Und das ist frustrierend, da wir jetzt Chat-GPT Interaktion gewohnt sind. Meinen Sprachassistenten kann ich nicht einfach korrigieren: nur ein kleines Beispiel: der falsche Interpret wird abgespielt. Ich kann jetzt nicht sagen: hey Sprachassistent, falscher Interpret, ich suche nach XYZ. Aber ich schweife ab… sorry.
Wir haben also unsere Lehrerin – die sieht doch passend aus. Das ist jetzt mein Ausgangsmaterial. Damit gehe ich als nächstes in Photoshop. Ich möchte nämlich aus diese einen Perspektive – drei machen. Eine totale, in der man noch mehr vom Raum sieht. Die Einstellung, die wir aus KREA.AI haben und eine nahe also close Einstellung. Die close ist easy – da muss ich nur ein wenig in das Bild zoomen. Für die Totale generieren wir uns den Raum darum herum. Auch hier gibt es immer wieder Stellen, die “nicht echt” aussehen und nochmal bearbeitet werden müssen. Aber so kauf ich die Einstellung.
Damit haben wir jetzt 3 Bilder die wir in HeyGen zum Leben erwecken. Über HeyGen werde ich noch eine eigene Folge machen. Heute zeig ich euch aber das Grundprinzip.
In HeyGen geht ihr auf neuen Avatar erstellen und ladet die 3 Bilder hoch. Jetzt kann man den Avatar schon Text oder hochgeladenes Audio sprechen lassen. Was es aber seit kurzem auch gibt – ist AI Movement. Sprich: bevor ich den Avatar etweas sprechen lasse, gebe icg ihm schon Bewegungsmuster vor. Da gibt es vorgefertigte Presets wie “Talking naturally” Also normales Reden, was ich für unsere Lehrerin auch genommen habe. Dann gibt es aber auch noch Presets wie “Keynote Speaker” oder “News Channel Moderator”. Oder ich gebe meinen eigenen Prompt ein.
Mein neu erstelltes Lehrerinnen-AI-Motion-Preset verwende ich dann zusammen mit der Stimme von hume.AI. Hume AI ist für mich noch immer das aktuell beste Sprachmodell für “echt” klingende Stimmen. Probiert’s mal aus. Link ist in der Beschreibung – kann man kostenlos testen. Und in Folge 4 könnt ihr es euch auch nochmal ganz genau anschauen.
HeyGen hat unsere 3 Einstellungen gerendert und ich lad sie runter, um sie in DaVinci Resolve zu importieren. Übrigens: warum ich HeyGen so liebe und meine Lipsync Sachen nicht direkt in KREA.AI mache, die das auch anbieten. Bei HeyGen habe ich kein Renderlimit. Naja – fast – mit meinem Account – ich kann beliebig viele 5min Clips exportieren. Wenn ich das durch KREA.AI laufen lassen, sind meine Credits für den Monat aufgebraucht…
Zu DaVinci Resolve, also meinem Schnittprogramm werde ich auch noch eine ganze Folge aufnehmen. Hier die Kurzversion: Aus meinen 3 Clips mit den 3 Einstellungen, mache ich mir eine Multicam. Ich kombiniere also alle 3 Clips zu einem, in dem ich die Kameraperspektiven BEIM ABPIELEN, live wechseln kann. Das funktioniert natürlich auch im “normalen Schnittmodus” Für die Show werde ich dann in KREA.AI noch weitere Schnittbilder, wie dieses hier generieren. Man sieht also nicht permanent die Lehrerin, sondern sie erzählt ihre Geschichte und die Geschichte wird bebildert. Das ist aber wirklich einer der letzten Schritte unserer Reise. Wir wissen ja noch nicht, welche Geschichten es in die Pilotfolge schaffen werden. Also immer her mit euren Geheimnissen!


