„Die Leute sind vielleicht überrascht, mich das sagen zu hören. Aber ich mag Ron DeSantis tatsächlich sehr. Er ist genau der Typ, den dieses Land braucht, und das meine ich wirklich so. Wenn Ron DeSantis Präsident werden würde, wäre das für mich ok“. Das Überraschende an dieser Videobotschaft, die seit April auf Youtube, Twitter und anderen sozialen Medien umherschwirrt, ist nicht, was darin zu hören ist, sondern von wem sie kommt.
Denn die vermeintliche Unterstützerin der präsidialen Ambitionen des erzkonservativen republikanischen Gouverneurs von Florida ist nicht irgendeine unbekannte Wählerin – sondern Hillary Clinton, Ex-Außenministerin von Barack Obama, Demokratin und eigentlich politische Todfeindin von DeSantis. Dass Clinton vermeintlich so leichtfertig das eigene politische Lager verrät, liegt daran, dass das Video nicht echt ist. Sondern ein Deepfake.
Erstellt wurde es vom Pro-Trump-Account „Ramble Rants“. Die Macher legten dabei eine gefälschte Stimme Clintons über die Bilder früherer TV-Aufnahmen der US-Demokratin. So wie sie es zuvor auch schon bei einem Video von Vizepräsidentin Kamala Harris gemacht hatten. Solche Fälschungen könnten im kommenden US-Wahlkampf zum großen Problem werden. „Es wird für die Wähler sehr schwierig sein, Echtes vom Falschem zu unterscheiden“, warnt Darrell West, Experte am Center for Technology Innovation der Denkfabrik Brookings Institution. „Es könnten kurz vor der Wahl Dinge auftauchen, bei denen es keine Chance mehr gibt, sie rechtzeitig einzufangen.“
Und so wie Millionen Wählern dürfte es schon bald auch Millionen Verbrauchern gehen. Die Polizei nutzt KI zwar bereits heute zur Verbrechensbekämpfung. Doch auch Kriminelle rüsten technologisch auf und verwenden sie, um Verbrechen zu begehen. Eine neue Generation KI-gestützter Software senkt die Kosten für aufwendigen Identitätsdiebstahl dramatisch und verwischt die Grenzen zwischen echt und falsch. Inzwischen bieten Firmen fortgeschrittene KI-Tools so günstig an, dass sie auch für Kriminelle attraktiv werden.
Willkommen im KI-Betrugsparadies
Natürlich dienen diese kommerziellen Angebote eigentlich keinem kriminellen Verwendungszweck. Aber man muss keine große Fantasie entwickeln, wofür sie sich schon heute missbrauchen lassen. Über das britische Startup Synthesia etwa lassen sich in wenigen Minuten professionelle Avatare jeder Person herstellen, für 1000 Dollar jährlich. Eigentliche Zielgruppe sind Unternehmen, die Videos ihrer Mitarbeiter ohne große Kosten erstellen und im Konzern nutzen wollen, etwa zur Motivation, Schulung oder internen Kommunikation zwischen Management und Belegschaft.
Die „Wall Street Journal“-Reporterin Joanna Stern hat kürzlich getestet, wie gut man jemand damit klonen kann – und täuschen. Dazu nahm sie in einem Fotostudio Audio- und Videomaterial von sich selbst auf und lud sie auf die Webseite hoch. Das Ergebnis war nicht perfekt. Aber doch wohl gut genug für einige Zwecke.
In einem Video-Meeting mit Kollegen flog sie ziemlich schnell auf – zu unemotional und steif wirkte ihr Klon. Aber für ein TikTok-Erklärvideo über ein iPhone-Feature reichte es. Der Avatar sah aus wie sie, auch wenn er seine Arme kaum bewegte oder ihre Gesichtsausdrücke wenig variierte. Sterns Fazit: Je länger das Video, desto größer die Gefahr, dass die Bot-Eigenschaften der KI auffliegen. Aber „auf TikTok, wo Menschen die Aufmerksamkeitsspanne eines Goldfischs haben, fallen diese computerartigen Eigenschaften weniger auf“.
Bei genauerem Hinsehen sind viele KI-Video-Fälschungen noch relativ leicht zu erkennen, etwa weil sich Kopfbewegungen wiederholen und künstlich aussehen, oder die Lippenbewegungen nicht vollkommen synchron mit dem gesprochenen Text erscheinen, so wie auch beim Clinton-Deepfake. Aber für einfache Anwendungsfälle reicht das schon heute locker – besonders auf Social-Media-Kanälen, wo bei großem Publikum maximale Wirkung erzielt werden kann und schon statistisch immer Glückstreffer dabei sind.
Noch größeres Missbrauchspotential haben Audio-Deepfakes. Auch deshalb, weil Sprach-Klone deutlich günstiger zu haben sind: Bei ElevenLabs kostet das nur fünf Dollar im Monat. Und die Wirkung ist potenziell verheerender als bei Synthesia. Stern schaffte es damit, sich über Telefon mit Evan Spiegel, dem Chef von Snap, zu unterhalten, ohne dass der CEO merkte, dass er eigentlich mit einer KI-generierten Stimme sprach.
Selbst ihre eigene Schwester konnte sie damit zeitweise reinlegen. Und am Ende reichte die Sprach-KI sogar dafür, die automatische Stimmenerkennung bei der Kreditkartenverifizierung ihrer Bank auszutricksen. Sie verband die Reporterin direkt mit einer Service-Mitarbeiterin, ohne weitere Fragen zu stellen.
Machtlos gegen Missbrauch?
Ob die KI-Programme missbraucht werden, hängt von den Sicherheitsvorkehrungen ab. Bei Synthesia muss man vor der Generierung des Avatars erklären, dass man die Rechte am hochgeladenen Video-Material besitzt und keine Rechte und Lizenzen Dritter verletzt. Bei ElevenLabs muss man mit einem Häkchen vor dem Upload versichern, dass man der Eigentümer der Sprachdateien ist oder die Erlaubnis der Person hat, deren Stimme durch die KI faktisch geklont wird.
Natürlich ist die illegale oder betrügerische Verwendung der Software laut den AGBs beider Firmen verboten. Außerdem sagt ElevenLabs, die Firma könne erkennen, falls ihre Stimmen-Avatare missbraucht werden sollten. In den AGBs heißt es allerdings auch, dass man „nicht proaktiv die Inhalte überwache“, die hochgeladen würden. Erst wenn jemand verdächtiges Material meldet, setzen die Moderationsroutinen ein und kann KI-generiertes Material gelöscht oder Konten gesperrt werden. Was bis dahin damit anderswo online geschehen ist, kann die Firma freilich nicht mehr heilen.
Missbraucht wurde das Tool von Anfang an: Als ElevenLabs im Januar seine Demo-Version online stellte, tauchten im Internetforum 4chan sofort massenhaft Sprach-Deepfakes auf, in denen sich Prominente vermeintlich rassistisch und homophob äußerten, darunter Fake-Aussagen von Quentin Tarantino und George Lucas. Offensichtlich hatte also jemand illegal frei verfügbares Material der Film-Größen verwendet. ElevenLabs räumte daraufhin ein, dass „zusätzliche Sicherheitsvorkehrungen“ nötig seien.
KI-Upgrade für Enkeltrick
Man kann sich vorstellen, was diese technologische Revolution allein für altbekannte Betrugsmaschen bedeutet. Einen Quantensprung für den berüchtigten Enkeltrick etwa. „Bei KI-basierten Stimmen fällt es dem Bürger sehr, sehr schwer, überhaupt noch zu erkennen“, sagte Hans Hülsbeck vom LKA NRW kürzlich in „WDR Aktuell“. „Das kann also ganz einfach sein im Bereich des Enkeltricks, den wir kennen, dass jetzt die Stimme der Enkelin oder des Enkels KI-basiert nachgemacht wird.“
Schon jetzt fallen jedes Jahr viele ältere Menschen auf falsche Anrufe ihrer vermeintlichen Angehörigen rein, die in vermeintlicher Not um Geld bitten. Künftig werden sie womöglich mit nicht mehr zu unterscheidenden Sprach-Klonen beschallt, die aus den Social-Media-Profilen ihrer Enkelkinder generiert wurden – eine Sprachnachricht von WhatsApp genügt als Ausgangsmaterial. Oder ein aufgezeichneter Anruf bei Verwandten, deren Kontaktdaten im Telefonbuch zu finden sind.
Auch in den USA warnte schon im März die US-Wettbewerbsbehörde FTC, dass mit der überhasteten und unüberlegten Entwicklung von Chatbots und Stimmen-Klonen die Täuschung durch künstliche Intelligenz quasi zum kommerziellen Angebot werden könnte. Es gäbe ein Wettrüsten zwischen den Forschern für Deepfake-Erkennung und Firmen, die generative KI-Tools entwickeln. „Und die Betrüger, die diese Tools verwenden, sind oft längst verschwunden, wenn jemand ihren gefälschten Content bemerkt.“
Einfach die betrügerische Verwendung in den AGBs auszuschließen, reiche womöglich nicht: „Die FTC hat Firmen verklagt, die potenziell schädliche Technologien verbreitet haben, ohne vorher adäquate Maßnahmen zum Verbraucherschutz zu ergreifen.“ Am besten, schreibt die Behörde, sei es, sich an das zu erinnern, wofür Jeff Goldblum in seiner Rolle als Dr. Malcolm die Schöpfer des von Dinosauriern bevölkerten „Jurassic Park“ kritisierte: „Ihre Forscher waren so beschäftigt damit, herauszufinden, was sie erschaffen können, dass sie vergessen haben zu überlegen, ob sie es auch erschaffen sollten.“
Dieser Text erschien zuerst auf ntv.de.