Deepfakes

Meisterleistungen generativer KI

Mit Deepfakes werden Medieninhalte bezeichnet, die täuschend echt wirken und durch KI-Techniken generiert, abgeändert oder verfälscht worden sind. Es sind Techniken, die neue, kreative Möglichkeiten eröffnen in Bereichen wie Werbung, Kunst und Design, Unterhaltung und Bildung. Mit Deepfakes ist es aber auch einfach wie nie zuvor, Menschen zu diskreditieren oder ihnen Meinungen unterzuschieben, die sie nie geäußert haben und nicht teilen.

Zwar müssen laut dem von der EU verabschiedeten Artifical Intelligence Act (AI Act ) Inhalte, die mithilfe von KI erstellt oder verändert wurden, gekennzeichnet werden, doch die Vorschriften müssen erst noch in nationales Recht umgesetzt werden und greifen somit erst nach und nach. Aktuell gibt es keine strafrechtliche Konsequenzen für die Erstellung und Verbreitung von Deepfakes per se.

Empfohlener redaktioneller Inhalt

An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.

Viral ging im Januar 2024 ein Deepfake einer Rede des argentinischen Präsidenten Javier Milei auf dem Weltwirtschaftsforums in Davos. Gehalten hatte Milei seine Ansprache in argentinischem Spanisch, in dem verbreiteten Video sprach er aber Englisch und zwar in seiner eigenen Stimme und mit einem für ihn charakteristischen Akzent. Auch die Lippenbewegungen stimmten überein. Eine KI-generierte Synchronübersetzung, die Mileis Botschaft authentisch und wirkungsvoll verbreitete und erahnen lassen, dass sich mit diesen Tools viele Möglichkeiten eröffnen.

Deepfake-Pornos – eine neue Form von Missbrauch?

Deepfake-Pornos sind einfach zu erstellen und zu verbreiten, denn oft genügt ein einziges Bild der betroffenen Person. Mit dem Deepfake-Porno-Produzent hat sich bereits ein neues Berufsbild gebildet. Die Ergebnisse der genutzten KI-Tools sind oft so realistisch, dass es die Opfer solcher Fakes – in 99 Prozent sind dies Frauen – traumatisiert. Sie berichten von großen Angst- und Schamgefühlen. Deepfake-Pornos sind eine neue Form von sexualisierter Gewalt. Der Dokumentarfilm „Unfreiwillig im Porno“ von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik und spricht mit Opfern, KI-Fachleuten, Juristinnen und Juristen sowie mit Produzierenden von Deepfake-Pornos.

Screenshot links: Der Dokumentarfilm Unfreiwillig im Porno von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik.

Welche Techniken stecken hinter Deepfakes?

Es gibt verschiedene Arten von Deepfakes und unterschiedliche Verfahren, auf denen sie beruhen. Die Qualität der Ergebnisse ist sehr unterschiedlich – je nachdem, ob frei zugängliche generative KI-Systeme genutzt wurden oder kostenpflichtige Systeme, die mehr Rechenkapazität und weitere digitale Kompetenzen erfordern. Unterscheiden lassen sich folgende Arten von Deepfakes:  

  • Face-Swapping

  • Synthetische Stimmgenerierung

  • Synthetische Bildergenerierung

  • Face-Reenactment

Face-Swapping wird bereits auf vielen Webseiten und Apps angeboten. Gemeint ist der Gesichtstausch in einer Bild- oder Videodatei. Neuronale Netze lernen dabei aus einem Gesichtsbild die wichtigsten Mimik- und Beleuchtungsinformationen kodiert auszulesen und daraus ein entsprechendes Gesichtsbild zu erzeugen. Einige Modelle können fast in Echtzeit Gesichter tauschen. Als Trainingsmaterial werden dabei wenige, aber qualitativ hochwertige Videominuten einer Person benötigt, die möglichst viele verschiedene Gesichtsmimiken und Perspektiven enthalten. Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird.

Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird. Quelle: in Anlehnung an das Bundesamt für Sicherheit in der Informationstechnik

Für die Fälschung von Stimmen werden die Verfahren „Text-to-Speech (TTS)“ und „Voice Conversion (VC)“ angewandt. In einem Text-to-Speech-Verfahren wird zu einem vorgegebenen Text ein Audiosignal erzeugt, welches sich sowohl für Menschen als auch für eine automatische Spracherkennung wie die Stimme einer vorher definierten Person anhört.

Beim Voice-Conversion-Verfahren hat ein Anwender die Möglichkeit, dem KI-System ein Audiosignal vorzugeben, welches zu einem manipulierten Audiosignal konvertiert wird. Dieses neu erzeugte Signal hat den gleichen semantischen Inhalt wie das Ursprungssignal, unterscheidet sich jedoch in der Charakteristik des Sprechenden. Im Idealfall gleicht es der Person, die als Zielperson ausgewählt wurde. Bei einem Voice Conversion-Verfahren wird ein Audiosignal von Person 1 in ein Audiosignal konvertiert, das wie die Stimme von Person 2 klingt – sowohl für Menschen als auch für eine automatische Sprecherkennung.

Beide Verfahren werden durch komplexe neuronale Netze umgesetzt. Sie benötigen Trainingsdaten in Form von mehrere Stunden langen Audioaufnahmen der Zielperson in möglichst hoher Qualität. Liegen weitere Datenbanken mit Audiomaterial anderer Personen als Hilfsdaten vor, verringert sich die benötigte Menge an Audiomaterial der Zielperson auf wenige Minuten.

Mit KI erzeugte synthetische Bilder sind an sich kein Deepfake, sondern rein künstlich erzeugte Bilder. Sie können aber in ähnlicher Weise eingesetzt werden wie Deepfakes. Trainiert wurden die KI-Systeme mit großen Mengen an Fotos echter Personen. Für die Generierung von synthetischen Bildern, z.B. Gesichtern, kommen folgende Modelle zum Einsatz:

Diffusionsmodelle basieren auf Zufallsprozessen. Im Training wird ein Bild zufällig minimal verändert, es entsteht ein kleines Rauschen – eine Störung bei Farbkontrast oder Helligkeit, zunächst nicht wahrnehmbar. Dieser Schritt wird immer weiter wiederholt, bis aus dem Bild ein ungeordnetes Rauschen entstanden ist. Diesen Prozess lernt das Modell dann umzukehren: Es generiert ein neues – synthetisches – Bild, indem es das Rauschen Schritt für Schritt wieder entfernt.

Trainingsprozess eines Diffusionsmodells. Quelle: In Anlehnung an „golem.de IT-News für Profis“

Weitere KI-Modelle zur synthetischen Bildgenerierung sind Generative Adversarial Networks (GANs) und Autoencoder.

Beim Face-Reenactment lassen sich in Videodateien Mimik, Kopf- und Lippenbewegungen einer Person verändern. Das Gesicht selbst bleibt erhalten. Zu einem vorgegebenen Text werden passende, synthetisch erzeugte Lippenbewegungen und Gesichtsausdrücke erstellt. Dafür wird von einer ausgewählten Person aus einem Videostream ein 3D-Modell erstellt. Dieses Gesichtsmodell kann dann mithilfe eines zweiten Videostreams einer anderen Person kontrolliert werden. So können einer Person durch Unterlegung einer passenden Audiospur täuschend echte Aussagen in den Mund gelegt werden, die sie in der Realität nie getätigt hat.

Wie lassen sich Deepfakes erkennen?

Zur Detektion von Deepfakes werden verschiedene Methoden und Techniken eingesetzt, um Anomalien oder Hinweise auf Manipulation in den Medieninhalten zu identifizieren. Dazu gehören die Analyse von Gesichtsmerkmalen, die Überprüfung von Lippenbewegungen, die Untersuchung von Beleuchtung und Schatten. Auch KI-basierte Methode werden angewandt, um Muster und Abweichungen zu erkennen. Die Methoden zur Detektion werden – wie auch die Angriffsmethoden – stetig weiterentwickelt, zum Beispiel an der TU Darmstadt unter der Leitung von Prof. Dr. Ahmad-Reza Sadeghi. Auch das Forschungsprojekt Deep Fake Total am Fraunhofer Institut für Angewandte und Integrierte Sicherheit (AISEC) hat Systeme entwickelt, um Manipulationen an Audiospuren automatisiert zu detektieren.

Empfohlener redaktioneller Inhalt

An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.

Müssen wir lernen, mit Deepfakes zu leben?

Mit KI lassen sich nicht nur Deepfakes erstellen, sondern auch erkennen. Wie funktioniert das? Und wie hoch ist die Erfolgsquote solcher Detektionstools? Prof. Dr. Ahmed-Reza Sadeghi, Mitglied der Plattform Lernende Systeme und Leiter des System Security Labs an der TU Darmstadt, geht mit seinem Team genau diesen Fragen nach.

Der erste und größte Schutz vor Manipulation und Täuschung ist Medienkompetenz: Deepfakes verbreiten sich vor allem über Social Media-Plattformen und zwar innerhalb von Minuten. Ein Bewusstsein für die Mechanismen dieser Plattformen und ein verantwortungsvoller Umgang damit können Deepfakes entlarven und ihre Verbreitung stoppen.

Bitte kritisch prüfen

  1. Absender: Ein Blick auf den Account verrät oft schon, ob eine zweifelhafte Person oder Organisation dahinter steckt. Aber Achtung, auch Accounts können gefälscht oder gehackt werden.
  2. Kontext: Was wird gesagt? Ergibt das Sinn? Ist das sonst noch irgendwo erschienen? Eine Bild-Rückwärtssuche kann zeigen, was die ursprüngliche Quelle des Bildes ist.
  3. Details: KI-Manipulationen weisen oft Unschärfen oder Verzerrungen auf. Passen die Lippenbewegungen zu den gesprochenen Worten? Stimmt die Betonung und die Tonalität der Stimme? Ist die Körperhaltung ungewöhnlich oder stimmen die Proportionen nicht? Handelt es sich um bekannte Personen, kann man andere Bilder zur Überprüfung heranziehen: Ist es glaubwürdig, dass die Person Englisch oder eine andere Sprache spricht? Oder, dass sie einen Übersetzer benötigt?
  4. Faktenchecker: Im Zweifel können Bilder, Ton- oder Videodateien an Faktencheck-Redaktionen geschickt werden zur Überprüfung. Diese haben ein Netzwerk aus Daten-Forensikern, um die Datei noch genauer unter die Lupe nehmen zu können: dpa Faktencheck, correktiv.org, Deutsche Welle, AFP

Aufgedeckte Deepfakes

Falschnachrichten rund um politische und gesellschaftliche Themen gibt es schon lange. In den vergangenen Jahren sind durch KI erzeugte Deepfakes in Form von Bildern, Videos oder Audios hinzugekommen und haben eine neue Dimension an Täuschung in die Medienlandschaft gebracht – teilweise mit starker Wirkung, die bis in die Aktienmärkte hinein spürbar war. Viele Medien reagieren, indem sie verdächtige Inhalte überprüfen und widerlegen. Die Bildergalerie zeigt eine Auswahl.

Nach dem Angriff der militant-islamistischen Hamas im Oktober 2023 wurden die Geschehnisse in Nahost von einer Flut von Falschmeldungen in den sozialen Medien begleitet. Große Reichweite erzielte dieses Bild, auf dem ein traurig blickender Junge seine linke, blutverschmierte Hand hebt. Neben ihm liegt eine Frau mit geschlossenen Augen, Blut im Gesicht. Das Foto wurde über Social Media verbreitet mit der Überschrift: „Raise your hand if you stand with Palestine“ (dt.: „Hebe deine Hand, wenn du an der Seite Palästinas stehst.“). Doch diese Szene hat es nie gegeben, das Bild ist KI-generiert. Hinweise darauf sind die sechs Finger an der Hand des Jungen und die ungewöhnlich geraden Augenbrauen der Frau. Mehr Infos siehe Tagesschau Faktenfinder.

Das vielleicht berühmteste mittels KI gefälschte Bild zeigt Papst Franziskus in einem modernen weißen Daunenmantel. Auf X (vormals Twitter) verbreitete sich das Bild ab März 2023 schnell, doch vielen Nutzenden war zunächst nicht klar, ob das Bild echt oder eine Fälschung ist. Tatsächlich ist kaum erkennbar, dass das Bild von einem KI-System generiert wurde, lediglich die verzerrte Darstellung der rechten Hand des Papstes gibt einen Hinweis. Der Faktencheck von Correctiv liefert weitere Informationen.

Im Mai 2023 kursierte im Internet ein Bild, auf dem eine große, dichte Rauchwolke neben einem Regierungsgebäude aufsteigt. In unmittelbarer Nähe des Pentagon, Hauptsitz des US-Verteidigungsministeriums, sei es zu einer Explosion gekommen, so die Botschaft. Der amerikanische Aktienindex S&P 500 brach daraufhin kurzzeitig ein. Das Bild stellte sich als Fälschung heraus, vermutlich generiert mit einer KI-Anwendung. Ein Zusammenhang mit der Verbreitung des Bildes wird vermutet. Auch die Manipulation von Aktienkursen kann ein Motiv für Kriminelle sein, Falschmeldungen zu verbreiten. Weitere Informationen finden sich beim APA Faktencheck.

Der russische Angriffskrieg auf die Ukraine, der im Februar 2022 seinen Anfang nahm, wird seither begleitet von zahlreichen Falschinformationen. So kursierte ab November 2023 eine gefälschte Aufnahme des damaligen ukrainischen Generals Walerij Saluschnyj, in der er zum Putsch gegen Präsident Wolodymyr Selenskyj aufruft. „Wenn wir Selenskyj nicht aufhalten, wird er alle Ukrainer zur Schlachtbank führen“, heißt es in dem Video. Bei genauer Betrachtung fällt auf, dass die Lippenbewegungen nicht zu den gesprochenen Worten passen, an einzelnen Stellen stockt das Gesicht des Generals. Weitere Informationen siehe dpa Fact Check und Correctiv.

Ein mittels KI gefälschtes Video errang im November 2023 Aufsehen, das eine Regierungserklärung von Bundeskanzler Olaf Scholz zeigte. In seiner Ansprache erläuterte Scholz die Gründe für ein angebliches Verbot der AfD. Regierungssprecher Steffen Hebestreit erklärte, solche Fälschungen seien manipulativ und schürten Verunsicherung. In Umlauf gebracht wurde das Video von der Organisation “Zentrum für Politische Schönheit”, die damit auf ein Verbot der AfD hinwirken wollte, so ein Bericht der Tagesschau. Die Verbreitung des Videos wurde gerichtlich untersagt.

Für großes Aufsehen sorgte ein KI-generiertes Bild, das die Verhaftung des ehemaligen US-Präsidenten Donald Trump zeigt und im März 2023 verbreitet wurde. Generiert wurde das Bild von Eliot Higgins, Gründer des US-amerikanischen Recherchenetzwerks Bellingcat, der eine KI-generierte Bilderreihe mitsamt einer absurden Kurzgeschichte zu Trumps Verurteilung über X (ehemals Twitter) verbreitete. „Ein gefälschtes Bild (mit oder ohne KI-Beteiligung)“ kann sich viel schneller verbreiten, als es in den meisten Fällen faktengeprüft werden kann", so Higgins. Weitere Infos liefert der Tagesschau Faktencheck.

"Guten Abend, meine Damen und Herren. Ich begrüße Sie zur Tagesschau. Heute möchten wir uns bei Ihnen entschuldigen. Seit über drei Jahren lügen wir Ihnen dreist ins Gesicht.“ Diese Worte sind auf gefälschten Audio-Dateien nach dem Tagesschau-Jingle zu hören. Die Stimme klingen wie die der Tagesschau-SprecherInnen Jens Riewa und Susanne Daubner. Insgesamt drei Audio-Dateien mit diesen Inhalten wurden im Herbst 2023 geteilt und auf einer Demonstration von Personen aus dem Querdenkenmilieu in Kiel abgespielt. Die Redaktion der Tagesschau klärte auf, dass es sich um eine Fälschung handelt.

Emanuel Macron packt mit an, um den Müll von Pariser Straßen zu entfernen? Ein Deepfake, wie sich bei genauerer Betrachtung des verzerrten Gesichts rasch erkennen lässt. Auch die doppelte Krawatte und die ungewöhnliche Stellung des linken Beins geben Hinweise. Erstellt hat das Bild des französischen Staatspräsidenten die französische Internet-Plattform Frandroid mit dem KI-Bildgenerator Midjourney.

Der russische Präsident Wladimir Putin und der ehemalige US-Präsident Donald Trump bei einem gemeinsamen Weingelage? Ein Nutzer der Social Media-Plattform Reddit veröffentlichte es zusammen mit ähnlichen Bildern, die alle mit dem KI-Generator Midjourney erstellt wurden. Erstmals gepostet wurde das Bild von Trump und Putin im Januar 2024 auf Instagram, wie sich über eine Bilderrückwärtssuche herausfinden ließ. Dort wurde deutlich erwähnt, dass es mittels KI generierte wurde. Auf dem Bild zeigen sich typische Fehler, darunter unscharfe und unvollständig dargestellte Finger sowie falsche Proportionen bei den Weingläsern, beispielsweise doppelte Stiele an einem Glas. Der dpa Fact Check liefert weitere Infos.

In den sozialen Medien kursierte im Frühjahr 2023 ein Bild, das den Wikileaks-Gründer Julian Assange während seiner Gefangenschaft in einem schlechten Gesundheitszustand zeigte. Neben dem verschwimmenden Bart und der ungewöhnlichen und asymmetrischen Kleidung fällt am rechten Nasenflügel der Ansatz eines Piercings auf, das Assange nicht hat. Die Person, die das Bild generierte und verbreitete, gab an, mit der Fälschung auf Assanges Gefangenschaft aufmerksam machen zu wollen, so der APA Faktencheck.

Während der Fußball-Europameisterschaft 2024 kursierte in den sozialen Medien ein Video aus einem Fanblock. Darin skandierten beim Spiel der Ukraine gegen Rumänien am 17. Juni 2024 rumänische Fans im Stadion vermeintlich immer wieder „Putin! Putin!“. Eine Audioanalyse kam zu dem Ergebnis, dass die Tonspur des Videos mit hoher Wahrscheinlichkeit manipuliert ist. Unklar ist, ob dabei KI zum Einsatz kam. Vor allem der beinahe identische Klang der Rufe sei ein Indikator für eine Fälschung, so die Redaktion des dpa Fact Check

Wie lassen sich Deepfakes verantwortungsvoll nutzen?

Es gibt positive Anwendungen von Deepfakes, das ist unbestritten. Daraus folgt, dass die Techniken dahinter nicht verboten werden können. Sie bleiben Bestandteil unseres Medienumfelds und werden sich weiter entwickeln. Wie können aber positive Anwendungen gefördert und missbräuchliche verhindert werden? Wie können Vertrauen und Transparenz beim Einsatz von Deepfakes geschaffen werden? Fragen, die für das Fortbestehen einer Demokratie von existenzieller Bedeutung sind.

Einige Forscherinnen und Forscher haben Grundsätze für einen verantwortungsvollen Umgang mit Deepfakes entwickelt. Sie können Vorbild für verbindliche Regeln sein. Zu den Grundsätzen gehören:

  • Kennzeichnung: Der Einsatz von Deepfakes sollte immer angegeben werden.
  • Wahrung von Persönlichkeitsrechten: Nur mit Einverständnis der jeweiligen Person darf ein Deepfake von ihr erstellt werden.
  • Ethische Überprüfung: Der Einsatz von Deepfakes sollte im jeweiligen Kontext ethisch vertretbar sein
  • Offener Zugang zu KI-Modellen: Die Bevölkerung sollte die Möglichkeit haben, selbst KI-Modelle zu testen und zu gebrauchen.

Kritisch zu werten ist, dass einige wenige Unternehmen mit kommerziellen Interessen über Zugang und Nutzung von generativer KI bestimmen. Sie verfügen über immense Rechen- und Datenkapazitäten und bieten ihre Dienste (ab einem bestimmten Nutzungsgrad) kostenpflichtig an. Es kommt damit zu einer starken Marktkonzentration. Kleinere KI-Unternehmen, die nicht die Daten- und Rechenpower haben, können in diesem Wettbewerb nicht mithalten. Dem entgegen stehen Open-Source-Modelle.

Open Source: Stable Diffusion

Generative KI ist nicht nur eine Sache von US-Konzernen: Der Text-zu-Bild-Generator Stable Diffusion wurde von einem Forschungsteam der Ludwig-Maximilians-Universität München unter der Leitung von Prof. Dr. Björn Ommer als Open-Source-Modell entwickelt. Technologische Grundlage ist ein Diffusionsmodell. Das Besondere: Stable Diffusion ist so skaliert, dass es lokal auf herkömmlichen Computern installiert werden kann. Ein cloud-basierter Zugriff auf große Rechenserver, wie bei anderen Modellen, ist nicht nötig. Einen Vorgänger des Modells veröffentlichte das Team bereits im Dezember 2020 – ein gutes Jahr vor dem Launch von DALL-E – und startete damit das Wettrennen der KI-Bildgeneratoren. Beeindruckend war schon bei den ersten veröffentlichten Bildern, wie gut Stable Diffusion die Generierung von Reflexionen und Schattenwurf gelang, obwohl es darauf nicht explizit trainiert worden ist.

Quelle: High-Resolution Image Synthesis with Latent Diffusion Models – Computer Vision & Learning Group (ommer-lab.com)

In vielen Bereichen gibt es konstruktive, legale, kreative und transparente Anwendungsmöglichkeiten für Deepfakes:

  • Bildung und Aufklärung: Komplexe Themen können mit Deepfakes veranschaulicht, historische Figuren oder Ereignisse rekonstruiert werden.
  • Barrierefreiheit und soziale Teilhabe: Deepfakes können z.B. Texte in Gebärdensprache übersetzen oder Personen mit sprachlichen Beeinträchtigungen ermöglichen, sich zu verständigen. Wichtig dabei ist, dass entsprechende Produkte unter enger Einbeziehung der Betroffenen entwickelt werden, um sie auf deren Bedürfnisse abzustimmen.
  • Personenschutz: Mit Deepfakes können Identitäten geschützt werden: Im Dokumentarfilm „Welcome to Chechnya“ („Willkommen in Tschetschenien“) können mit dieser Methode Personen porträtiert und begleitet werden, die aus Sicherheitsgründen ihr wahres Gesicht nicht zeigen können.
  • Motivation: Im Training und in der beruflichen Weiterbildung können Deepfakes maßgeblich die Motivation und damit die Erfolgswahrscheinlichkeit erhöhen. So wurden in einem Fitnessprogramm die Übungen von einem Deepfake des oder der Teilnehmenden vorgeführt – mit dem Ergebnis, dass die Übungen durchweg besser und erfolgreicher absolviert wurden.
  • Kunst- und Unterhaltung: In Filmen ergänzen Deepfake-Methoden bisherige visuelle Effekte und ermöglichen Erzählungen, die Zeit und Raum überspringen. Auch für Satire und in Werbespots werden Deepfakes gerne genutzt.

Weiterführende Informationen