Dem Microsoft säin neien AI kann jidderengem seng Stëmm simuléieren mat 3 Sekonnen Audio

vergréisseren / En AI-generéiert Bild vun enger Persoun Silhouette.

Ars Technica

En Donneschdeg hunn Microsoft Fuerscher en neien Text-zu-Speech AI Modell genannt VALL-E ugekënnegt, deen d’Stëmm vun enger Persoun enk simuléiere kann wann se eng dräi Sekonnen Audioprobe kritt. Wann et eng spezifesch Stëmm léiert, kann de VALL-E Audio vun där Persoun synthetiséieren, déi alles seet – a maacht et op eng Manéier déi probéiert den emotionalen Toun vum Spriecher ze erhaalen.

Seng Creatoren spekuléieren datt VALL-E fir qualitativ héichwäerteg Text-zu-Ried Uwendungen benotzt ka ginn, Riedseditioun wou eng Opnam vun enger Persoun ka geännert ginn an aus engem Texttranskript geännert ginn (fir datt se eppes soen wat se ursprénglech net gemaach hunn), an Audioinhalt Kreatioun wann kombinéiert mat anere generativen AI Modeller wéi GPT-3.

Microsoft nennt VALL-E e “neuralen Codec Sproochmodell”, an et baut aus enger Technologie mam Numm EnCodec, déi Meta am Oktober 2022 ugekënnegt huet. Am Géigesaz zu anere Text-zu-Ried Methoden, déi typesch Ried synthetiséieren andeems Welleformen manipuléieren, generéiert VALL-E diskret Audio Codec Coden aus Text an akustesch Ufroen. Et analyséiert grondsätzlech wéi eng Persoun kléngt, brécht dës Informatioun an diskret Komponenten (genannt “Tokens”) dank EnCodec, a benotzt Trainingsdaten fir ze passen wat se “weess” iwwer wéi dës Stëmm kléngt wann se aner Ausdréck ausserhalb vun den dräi schwätzt. -zweet Echantillon. Oder, wéi Microsoft et am VAL-E Pabeier seet:

Fir personaliséiert Ried ze synthetiséieren (zB Zero-shot TTS), generéiert VALL-E déi entspriechend akustesch Tokens bedingt op den akusteschen Tokens vun der 3 Sekonnen ageschriwwener Opnam an der Phoneme-Prompt, déi de Spriecher an den Inhaltsinformatioun respektiv beschränken. Schlussendlech ginn déi generéiert akustesch Tokens benotzt fir déi lescht Welleform mat dem entspriechende neurale Codec Decoder ze synthetiséieren.

Microsoft trainéiert VALL-E seng Riedsynthesefäegkeeten op enger Audiobibliothéik, zesummegesat vu Meta, genannt LibriLight. Et enthält 60.000 Stonnen Englesch Sproochesprooch vu méi wéi 7.000 Spriecher, meeschtens aus LibriVox Public Domain Audiobooks gezunn. Fir VAL-E e gutt Resultat ze generéieren, muss d’Stëmm an der dräi Sekonnen Prouf enk mat enger Stëmm an den Trainingsdaten passen.

Op der VALL-E Beispill Websäit bitt Microsoft Dutzende vun Audio Beispiller vum AI Modell an Aktioun. Ënnert de Proben ass de “Speaker Prompt” den dräi Sekonnen Audio, deen dem VAL-E geliwwert gëtt, deen et muss imitéieren. D'”Ground Truth” ass eng pre-existéierend Opnam vun deemselwechte Spriecher, deen e bestëmmte Saz fir Vergläichszwecker seet (zort wéi d'”Kontroll” am Experiment). D'”Baseline” ass e Beispill vu Synthese, déi vun enger konventioneller Text-zu-Speech Synthesemethod geliwwert gëtt, an d'”VALL-E” Probe ass den Ausgang vum VALL-E Modell.

E Blockdiagramm vu ALL-E geliwwert vu Microsoft Fuerscher.
vergréisseren / E Blockdiagramm vu ALL-E geliwwert vu Microsoft Fuerscher.

Microsoft

Wärend VALL-E benotzt fir dës Resultater ze generéieren, hunn d’Fuerscher nëmmen déi dräi-zweet “Speaker Prompt” Probe an eng Textstring (wat se wollten d’Stëmm soen) an VALL-E gefiddert. Also vergläicht d’Probe “Ground Truth” mat der “VALL-E” Probe. A verschiddene Fäll sinn déi zwee Proben ganz no. E puer VALL-E Resultater schéngen Computer-generéiert, awer anerer kéinte potenziell fir e Mënsch seng Ried verwiesselt ginn, wat d’Zil vum Modell ass.

Zousätzlech fir de Vokalen Timbre an den emotionalen Toun vun engem Lautsprecher z’erhalen, kann VALL-E och dat “akustesch Ëmfeld” vum Sample Audio imitéieren. Zum Beispill, wann d’Probe aus engem Telefonsgespréich koum, simuléiert den Audioausgang d’akustesch a Frequenzeigenschaften vun engem Telefonsuruff a senger synthetiséierter Ausgab (dat ass e flotte Wee fir ze soen datt et och wéi en Telefon kléngt). An d’Proben vu Microsoft (an der Sektioun “Synthesis of Diversity”) weisen datt VALL-E Variatiounen am Stëmmtoun generéiere kann andeems de zoufälleg Som am Generatiounsprozess benotzt gëtt.

Vläicht wéinst der Fäegkeet vum VALL-E fir potenziell Mëssbrauch an Täuschung ze brennen, huet Microsoft kee ALL-E Code zur Verfügung gestallt fir anerer mat ze experimentéieren, sou datt mir dem VALL-E seng Fäegkeeten net testen kënnen. D’Fuerscher schéngen sech bewosst iwwer de potenzielle soziale Schued deen dës Technologie kéint bréngen. Fir d’Konklusioun vum Pabeier schreiwen se:

“Zënter VALL-E kéint Ried synthetiséieren, déi d’Speaker Identitéit behält, kann et potenziell Risiken am Mëssbrauch vum Modell droen, wéi zB Spoofing Stëmm Identifikatioun oder e spezifesche Lautsprecher impersonéieren. Fir sou Risiken ze reduzéieren, ass et méiglech en Detektiounsmodell ze bauen fir ze diskriminéieren ob en Audioclip vu VALL-E synthetiséiert gouf. Mir wäerten och d’Microsoft AI Prinzipien an d’Praxis ëmsetzen wann mir d’Modeller weider entwéckelen.”

Leave a Comment

Your email address will not be published. Required fields are marked *