Deine Daten. Deine Wahl.

Wenn du nur das Nötigste wählst, erfassen wir mit Cookies und ähnlichen Technologien Informationen zu deinem Gerät und deinem Nutzungsverhalten auf unserer Website. Diese brauchen wir, um dir bspw. ein sicheres Login und Basisfunktionen wie den Warenkorb zu ermöglichen.

Wenn du allem zustimmst, können wir diese Daten darüber hinaus nutzen, um dir personalisierte Angebote zu zeigen, unsere Webseite zu verbessern und gezielte Werbung auf unseren und anderen Webseiten oder Apps anzuzeigen. Dazu können bestimmte Daten auch an Dritte und Werbepartner weitergegeben werden.

News & Trends

Microsofts VALL-E imitiert jede Stimme – drei Sekunden Aufnahme genügen

Martin Jud
11-1-2023

Auf DALL-E folgt VALL-E: Microsoft und OpenAI haben eine neue Künstliche Intelligenz (KI) geschaffen, die Stimmen nachahmen kann. Bereits eine Sprachaufnahme von drei Sekunden sollen der KI als Input genügen.

Heute wissen wir: Was Fotos oder Videos zeigen, muss nicht so passiert sein. Dass ein Text nicht zwingend aus der Feder eines Autors stammen muss, oder ein Bild aus dem Pinsel einer Künstlerin, ist seit ChatGPT und DALL-E auch klar. Jetzt ist die Stimme dran.

VALL-E ist ein KI-Modell, das Microsoft als «Neural Codec Language» bezeichnet. Es ermöglicht die Erstellung von Sprachprofilen und die Imitation der entsprechenden Stimme. Dabei reichen der KI drei Sekunden Sprachaufzeichnung, um das Gehörte natürlich und mit emotionaler Färbung nachzuahmen. Sie kann dann mit der Stimme beliebige Texte vorlesen. Auch der Umgebungston der Aufnahme soll erhalten bleiben. Die neue KI bietet sich bestens für Text-zu-Sprache-Funktionen, was allenfalls ein Vorlesen eines Buches mit der Stimme des Autors ermöglichen könnte.

Microsoft ist sich bewusst, dass die Technologie auch Missbrauchspotenzial hat. Daher soll bei künftigen Anwendungen ein Protokoll dafür sorgen, dass durch VALL-E erstellter Content auch als solcher erkannt werden kann.

Übersicht, wie VALL-E funktioniert.
Übersicht, wie VALL-E funktioniert.
Quelle: Microsoft

Die KI liefert mit dem, was Microsoft an Beispielen präsentiert, beeindruckende Ergebnisse. Für ihr Training wurden 60 000 Stunden englische Sprachaufnahmen aufbereitet. Das entspreche dem hundertfachen Input bestehender Sprachsynthesen.

Beispiele von VALL-E kannst du dir auf GitHub anhören. Neben der VALL-E-Sprachausgabe sind jeweils auch die dreisekündigen Input-Aufnahmen (Speaker Prompt) vorhanden. Weiter kannst du dir anhören, wie der eingegebene Text mit Originalstimme gesprochen klingt (Ground Truth). Und unter Baseline hörst du, wie gut bisher bestehende Text-to-Speech-Synthese im Vergleich klingt. Ob, wann und in welcher Form du VALL-E künftig nutzen kannst, ist noch unklar.

Titelbild: shutterstock

52 Personen gefällt dieser Artikel


User Avatar
User Avatar

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.


News & Trends

Vom neuen iPhone bis zur Auferstehung der Mode aus den 80er-Jahren. Die Redaktion ordnet ein.

Alle anzeigen

16 Kommentare

Avatar
later