Dësen neien AI kann Är Stëmm aus just 3 Sekonnen Audio simuléieren

Dem Microsoft säin neie Sproochemodell Vall-E ass gemellt fäeg all Stëmm ze imitéieren andeems se just eng dräi Sekonnen Proufopnam benotzen.

Dat kierzlech verëffentlecht AI-Tool gouf op 60.000 Stonnen Englesch Rieddaten getest. Fuerscher soten an engem Pabeier vun der Cornell University datt et d’Emotiounen an den Toun vun engem Spriecher replizéiere kéint.

Dës Erkenntnisser ware scheinbar wouer och wann Dir eng Opnam vu Wierder erstellt, déi den urspréngleche Spriecher ni gesot huet.

“Vall-E entsteet am Kontext Léierfäegkeeten a ka benotzt ginn fir héichqualitativ personaliséiert Ried ze synthetiséieren mat nëmmen enger 3-Sekonne ageschriwwenen Opnam vun engem onsiichten Lautsprecher als akustesch Prompt. vun der Konscht zero-shot [text to speech] System a punkto Sprachnatierlechkeet a Spriecherähnlechkeet”, hunn d’Auteuren geschriwwen. “Zousätzlech fanne mir datt Vall-E d’Emotioun vum Spriecher an d’akustesch Ëmfeld vun der akustescher Prompt an der Synthese erhaalen konnt.”

ANDROID SPYWARE SCHREKT NËMMEN FINANSIELL INSTITUTIOUNEN AN ÄR Suen

Microsoft Corporation Stand Signage gëtt um CES 2023 am Las Vegas Convention Center de 6. Januar 2023 zu Las Vegas, Nevada ugewisen.
((Foto vum David Becker / Getty Images))

D’Vall-E Echantillon, déi op GitHub gedeelt ginn, sinn onheemlech ähnlech wéi d’Lautsprecherprompts, obwuel se an der Qualitéit variéieren.

An engem synthetiséierte Saz aus der Emotional Voices Database seet de Vall-E schloofend de Saz: “Mir mussen d’Zuel vu Plastikstuten reduzéieren.”

DISNEY CHARACTERS KOMMEN OP AMAZON ALEXA MAT ‘HEY DISNEY’ COMMAND

Dem Microsoft säin neie Sproochemodell Vall-E ass gemellt fäeg all Stëmm ze imitéieren mat just eng dräi-Sekonne Proufopnam.

Dem Microsoft säin neie Sproochemodell Vall-E ass gemellt fäeg all Stëmm ze imitéieren andeems se just eng dräi Sekonnen Proufopnam benotzen.
(iStock)

Wéi och ëmmer, d’Fuerschung an Text-zu-Ried AI kënnt mat enger Warnung.

“Well Vall-E Ried kéint synthetiséieren déi d’Speaker Identitéit behält, kann et potenziell Risiken am Mëssbrauch vum Modell droen, sou wéi d’Stëmmidentifikatioun ze spoofen oder e spezifesche Spriecher ze imitéieren”, soen d’Fuerscher op där Websäit. “Mir hunn d’Experimenter ënner der Virgab gemaach datt de Benotzer d’accord ass fir den Zil-Speaker an der Riedsynthese ze sinn. Wann de Modell generaliséiert gëtt fir onsiichtbar Spriecher an der realer Welt, sollt et e Protokoll enthalen fir sécherzestellen datt de Spriecher d’Benotzung vun hirer Stëmm approuvéiert. an e synthetiséierte Riederkennungsmodell.”

Corporate Signage vu Microsoft Corp am Microsoft India Development Center, zu Noida, Indien, e Freideg, Nov.  11, 2022.

Corporate Signage vu Microsoft Corp am Microsoft India Development Center, zu Noida, Indien, e Freideg, Nov. 11, 2022.
(Fotograf: Prakash Singh / Bloomberg iwwer Getty Images)

KLICKT HEI FIR D’FOX NEWS APP KËNNT

Am Moment ass Vall-E, deen Microsoft en “neuralen Codec Sproochmodell” nennt, net fir de Public verfügbar.

Leave a Comment

Your email address will not be published. Required fields are marked *