Deepfakes
Meisterleistungen generativer KI
Mit Deepfakes werden Medieninhalte bezeichnet, die täuschend echt wirken und durch KI-Techniken generiert, abgeändert oder verfälscht worden sind. Es sind Techniken, die neue, kreative Möglichkeiten eröffnen in Bereichen wie Werbung, Kunst und Design, Unterhaltung und Bildung. Mit Deepfakes ist es aber auch einfach wie nie zuvor, Menschen zu diskreditieren oder ihnen Meinungen unterzuschieben, die sie nie geäußert haben und nicht teilen.
Zwar müssen laut dem von der Europäischen Union verabschiedeten Artifical Intelligence Act (AI Act) Inhalte, die mithilfe von KI erstellt oder verändert wurden, gekennzeichnet werden, doch die Vorschriften müssen erst noch in nationales Recht umgesetzt werden und greifen somit erst nach und nach. Aktuell gibt es keine strafrechtliche Konsequenzen für die Erstellung und Verbreitung von Deepfakes per se.
Empfohlener redaktioneller Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.
Viral ging im Januar 2024 ein Deepfake einer Rede des argentinischen Präsidenten Javier Milei auf dem Weltwirtschaftsforum in Davos. Gehalten hatte Milei seine Ansprache in argentinischem Spanisch, in dem verbreiteten Video spricht er aber Englisch und zwar in seiner eigenen Stimme und mit einem für ihn charakteristischen Akzent. Auch die Lippenbewegungen stimmen überein. Es ist eine KI-generierte Synchronübersetzung, die Mileis Botschaft authentisch und wirkungsvoll verbreitete und erahnen lässt, dass sich mit diesen Tools viele Möglichkeiten eröffnen.
Deepfake-Pornos – eine neue Form von Missbrauch?
Deepfake-Pornos sind einfach zu erstellen und zu verbreiten, denn oft genügt ein einziges Bild der betroffenen Person. Mit der Deepfake-Porno-Produktion hat sich bereits eine neue Branchennische gebildet hat sich bereits ein neues Berufsbild gebildet. Die Ergebnisse der genutzten KI-Tools sind oft so realistisch, dass es die Opfer solcher Fakes – in 99 Prozent sind dies Frauen – traumatisiert. Sie berichten von großen Angst- und Schamgefühlen. Deepfake-Pornos sind eine neue Form von sexualisierter Gewalt. Der Dokumentarfilm „Unfreiwillig im Porno“ von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik und spricht mit Opfern, KI-Fachleuten, Juristinnen und Juristen sowie mit Produzierenden von Deepfake-Pornos.
Screenshot links: Der Dokumentarfilm Unfreiwillig im Porno von Nicole Krättli gibt Einblicke in die Ausmaße der Problematik.
Welche Techniken stecken hinter Deepfakes?
Es gibt verschiedene Arten von Deepfakes und unterschiedliche Verfahren, auf denen sie beruhen. Die Qualität der Ergebnisse ist sehr unterschiedlich – je nachdem, ob frei zugängliche generative KI-Systeme genutzt wurden oder kostenpflichtige Systeme, die mehr Rechenkapazität und weitere digitale Kompetenzen erfordern. Unterscheiden lassen sich folgende Arten von Deepfakes:
Face-Swapping
Synthetische Stimmgenerierung
Synthetische Bildgenerierung
Face-Reenactment
Face-Swapping wird bereits auf vielen Webseiten und Apps angeboten. Gemeint ist der Gesichtstausch in einer Bild- oder Videodatei. Neuronale Netze lernen dabei aus einem Gesichtsbild die wichtigsten Mimik- und Beleuchtungsinformationen kodiert auszulesen und daraus ein entsprechendes Gesichtsbild zu erzeugen. Einige Modelle können fast in Echtzeit Gesichter tauschen. Als Trainingsmaterial werden dabei wenige, aber qualitativ hochwertige Videominuten einer Person benötigt, die möglichst viele verschiedene Gesichtsmimiken und Perspektiven enthalten. Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird.
Für die Fälschung von Stimmen werden die Verfahren „Text-to-Speech (TTS)“ und „Voice Conversion (VC)“ angewandt. In einem Text-to-Speech-Verfahren wird zu einem vorgegebenen Text ein Audiosignal erzeugt, welches sich sowohl für Menschen als auch für eine automatische Spracherkennung wie die Stimme einer vorher definierten Person anhört.
Beim Voice-Conversion-Verfahren hat ein Anwender die Möglichkeit, dem KI-System ein Audiosignal vorzugeben, welches zu einem manipulierten Audiosignal konvertiert wird. Dieses neu erzeugte Signal hat den gleichen semantischen Inhalt wie das Ursprungssignal, unterscheidet sich jedoch in der Charakteristik des Sprechenden. Im Idealfall gleicht es der Person, die als Zielperson ausgewählt wurde. Bei einem Voice Conversion-Verfahren wird ein Audiosignal von Person 1 in ein Audiosignal konvertiert, das wie die Stimme von Person 2 klingt – sowohl für Menschen als auch für eine automatische Sprecherkennung.
Beide Verfahren werden durch komplexe neuronale Netze umgesetzt. Sie benötigen Trainingsdaten in Form von mehrere Stunden langen Audioaufnahmen der Zielperson in möglichst hoher Qualität. Liegen weitere Datenbanken mit Audiomaterial anderer Personen als Hilfsdaten vor, verringert sich die benötigte Menge an Audiomaterial der Zielperson auf wenige Minuten.
Mit KI erzeugte synthetische Bilder sind an sich kein Deepfake, sondern rein künstlich erzeugte Bilder. Sie können aber in ähnlicher Weise eingesetzt werden wie Deepfakes. Trainiert wurden die KI-Systeme mit großen Mengen an Fotos echter Personen. Für die Generierung von synthetischen Bildern, z.B. Gesichtern, kommen folgende Modelle zum Einsatz:
Diffusionsmodelle basieren auf Zufallsprozessen. Im Training wird ein Bild zufällig minimal verändert, es entsteht ein kleines Rauschen – eine Störung bei Farbkontrast oder Helligkeit, zunächst nicht wahrnehmbar. Dieser Schritt wird immer weiter wiederholt, bis aus dem Bild ein ungeordnetes Rauschen entstanden ist. Diesen Prozess lernt das Modell dann umzukehren: Es generiert ein neues – synthetisches – Bild, indem es das Rauschen Schritt für Schritt wieder entfernt.
Weitere KI-Modelle zur synthetischen Bildgenerierung sind Generative Adversarial Networks (GAN) und Autoencoder.
Beim Face-Reenactment lassen sich in Videodateien Mimik, Kopf- und Lippenbewegungen einer Person verändern. Das Gesicht selbst bleibt erhalten. Zu einem vorgegebenen Text werden passende, synthetisch erzeugte Lippenbewegungen und Gesichtsausdrücke erstellt. Dafür wird von einer ausgewählten Person aus einem Videostream ein 3D-Modell erstellt. Dieses Gesichtsmodell kann dann mithilfe eines zweiten Videostreams einer anderen Person kontrolliert werden. So können einer Person durch Unterlegung einer passenden Audiospur täuschend echte Aussagen in den Mund gelegt werden, die sie in der Realität nie getätigt hat.
Wie lassen sich Deepfakes erkennen?
Zur Detektion von Deepfakes werden verschiedene Methoden und Techniken eingesetzt, um Anomalien oder Hinweise auf Manipulation in den Medieninhalten zu identifizieren. Dazu gehören die Analyse von Gesichtsmerkmalen, die Überprüfung von Lippenbewegungen, die Untersuchung von Beleuchtung und Schatten. Auch KI-basierte Methode werden angewandt, um Muster und Abweichungen zu erkennen. Die Methoden zur Detektion werden – wie auch die Angriffsmethoden – stetig weiterentwickelt, zum Beispiel an der TU Darmstadt unter der Leitung von Prof. Dr. Ahmad-Reza Sadeghi. Auch das Forschungsprojekt Deep Fake Total am Fraunhofer Institut für Angewandte und Integrierte Sicherheit (AISEC) hat Systeme entwickelt, um Manipulationen an Audiospuren automatisiert zu detektieren.
Empfohlener redaktioneller Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt. Sie können ihn sich mit einem Klick anzeigen lassen und wieder ausblenden.
Müssen wir lernen, mit Deepfakes zu leben?
Mit KI lassen sich nicht nur Deepfakes erstellen, sondern auch erkennen. Wie funktioniert das? Und wie hoch ist die Erfolgsquote solcher Detektionstools? Prof. Dr. Ahmed-Reza Sadeghi, Mitglied der Plattform Lernende Systeme und Leiter des System Security Labs an der TU Darmstadt, geht mit seinem Team genau diesen Fragen nach.
Der erste und größte Schutz vor Manipulation und Täuschung ist Medienkompetenz: Deepfakes verbreiten sich vor allem über Social Media-Plattformen und zwar innerhalb von Minuten. Ein Bewusstsein für die Mechanismen dieser Plattformen und ein verantwortungsvoller Umgang damit können Deepfakes entlarven und ihre Verbreitung stoppen.
Bitte kritisch prüfen:
- Absender: Ein Blick auf den Account verrät oft schon, ob eine zweifelhafte Person oder Organisation dahinter steckt. Aber Achtung, auch Accounts können gefälscht oder gehackt werden.
- Kontext: Was wird gesagt? Ergibt das Sinn? Ist das sonst noch irgendwo erschienen? Eine Bild-Rückwärtssuche kann zeigen, was die ursprüngliche Quelle des Bildes ist.
- Details: KI-Manipulationen weisen oft Unschärfen oder Verzerrungen auf.
- Passen die Lippenbewegungen zu den gesprochenen Worten?
- Stimmt die Betonung und die Tonalität der Stimme?
- Ist die Körperhaltung ungewöhnlich oder stimmen die Proportionen nicht?
- Handelt es sich um bekannte Personen, kann man andere Bilder zur Überprüfung heranziehen?
- Ist es glaubwürdig, dass die Person Englisch oder eine andere Sprache spricht beziehungsweise einen Übersetzer benötigt?
Aufgedeckte Deepfakes
Falschnachrichten rund um politische und gesellschaftliche Themen gibt es schon lange. In den vergangenen Jahren sind durch KI erzeugte Deepfakes in Form von Bildern, Videos oder Audios hinzugekommen und haben eine neue Dimension an Täuschung in die Medienlandschaft gebracht – teilweise mit starker Wirkung, die bis in die Aktienmärkte hinein spürbar war. Viele Medien reagieren, indem sie verdächtige Inhalte überprüfen und widerlegen. Die Bildergalerie zeigt eine Auswahl.
Wie lassen sich Deepfakes verantwortungsvoll nutzen?
Es gibt positive Anwendungen von Deepfakes, das ist unbestritten. Ein Verbot der zugrunde liegenden Technik erscheint daher nicht sinnvoll. Sie bleiben Bestandteil unseres Medienumfelds und werden sich weiter entwickeln. Wie können aber positive Anwendungen gefördert und missbräuchliche verhindert werden? Wie können Vertrauen und Transparenz beim Einsatz von Deepfakes geschaffen werden? Fragen, die für das Fortbestehen einer Demokratie von existenzieller Bedeutung sind.
Einige Forscherinnen und Forscher haben Grundsätze für einen verantwortungsvollen Umgang mit Deepfakes entwickelt. Sie können Vorbild für verbindliche Regeln sein. Zu den Grundsätzen gehören:
- Kennzeichnung: Der Einsatz von Deepfakes sollte immer angegeben werden.
- Wahrung von Persönlichkeitsrechten: Nur mit Einverständnis der jeweiligen Person darf ein Deepfake von ihr erstellt werden.
- Ethische Überprüfung: Der Einsatz von Deepfakes sollte im jeweiligen Kontext ethisch vertretbar sein.
- Offener Zugang zu KI-Modellen: Die Bevölkerung sollte die Möglichkeit haben, selbst KI-Modelle zu testen und zu gebrauchen.
Kritisch zu werten ist, dass einige wenige Unternehmen mit kommerziellen Interessen über Zugang und Nutzung von generativer KI bestimmen. Sie verfügen über immense Rechen- und Datenkapazitäten. Die meisten bieten ihre Dienste (ab einem bestimmten Nutzungsgrad) kostenpflichtig an. Es kommt damit zu einer starken Marktkonzentration. Kleinere KI-Unternehmen, die nicht die Daten- und Rechenpower haben, können in diesem Wettbewerb nicht mithalten. Dem entgegen stehen Open-Source-Modelle.
Open Source: Stable Diffusion
Generative KI ist nicht nur eine Sache von US-Konzernen: Der Text-zu-Bild-Generator Stable Diffusion wurde von einem Forschungsteam der Ludwig-Maximilians-Universität München unter der Leitung von Prof. Dr. Björn Ommer als Open-Source-Modell entwickelt. Technologische Grundlage ist ein Diffusionsmodell. Das Besondere: Stable Diffusion ist so skaliert, dass es lokal auf herkömmlichen Computern installiert werden kann. Ein cloud-basierter Zugriff auf große Rechenserver, wie bei anderen Modellen, ist nicht nötig. Einen Vorgänger des Modells veröffentlichte das Team bereits im Dezember 2020 – ein gutes Jahr vor dem Launch des KI-Bildgenerators DALL-E (OpenAI) – und startete damit das Wettrennen der KI-Bildgeneratoren. Beeindruckend war schon bei den ersten veröffentlichten Bildern, wie gut Stable Diffusion die Generierung von Reflexionen und Schattenwurf gelang, obwohl es darauf nicht explizit trainiert worden ist.
In vielen Bereichen gibt es konstruktive, legale, kreative und transparente Anwendungsmöglichkeiten für Deepfakes:
- Bildung und Aufklärung: Komplexe Themen können mit Deepfakes veranschaulicht, historische Figuren oder Ereignisse rekonstruiert werden.
- Barrierefreiheit und soziale Teilhabe: Deepfakes können z.B. Texte in Gebärdensprache übersetzen oder Personen mit sprachlichen Beeinträchtigungen ermöglichen, sich zu verständigen. Wichtig dabei ist, dass entsprechende Produkte unter enger Einbeziehung der Betroffenen entwickelt werden, um sie auf deren Bedürfnisse abzustimmen.
- Personenschutz: Mit Deepfakes können Identitäten geschützt werden: Im Dokumentarfilm „Welcome to Chechnya“ („Willkommen in Tschetschenien“) können mit dieser Methode Personen porträtiert und begleitet werden, die aus Sicherheitsgründen ihr wahres Gesicht nicht zeigen können.
- Motivation: Im Training und in der beruflichen Weiterbildung können Deepfakes maßgeblich die Motivation und damit die Erfolgswahrscheinlichkeit erhöhen. So wurden in einem Fitnessprogramm die Übungen von einem Deepfake des oder der Teilnehmenden vorgeführt – mit dem Ergebnis, dass die Übungen durchweg besser und erfolgreicher absolviert wurden.
- Kunst- und Unterhaltung: In Filmen ergänzen Deepfake-Methoden bisherige visuelle Effekte und ermöglichen Erzählungen, die Zeit und Raum überspringen. Auch für Satire und in Werbespots werden Deepfakes gerne genutzt.