Et ass e ganz Privileg ee vun de leschten, ganz Mënschen ze sinn.
méi technesch falsch
Ech si bewosst datt an der konkreter Zukunft d’Kënschtler, déi fréier als Mënschen bekannt sinn, e beréierende Hybrid vu Fleesch a Chips sinn.
Vläicht hätt ech dann net iwwerrascht gewiescht, wéi d’Fuerscher vu Microsoft laanscht komm sinn, fir déi verzweifelt Zukunft liicht unzefänken.
Et war alles sou onschëlleg an sou ganz wëssenschaftlech. D’Iwwerschrëft vun de Fuerscher Pabeier war kreativ opak: “Neural Codec Sproochmodeller sinn Zero-Shot Text to Speech Synthesizers.”
Wat mengt Dir Iech dat kéint bedeiten? Gëtt et eng nei, méi séier Manéier fir eng Maschinn Är geschwat Wierder opzeschreiwen?
Och: D’ChatGPT Revolutioun? Microsoft schéngt grouss Pläng fir dësen AI Chatbot ze hunn
Den Abstrakt vun de Fuerscher fänkt gutt genuch un. Et benotzt vill Wierder, Ausdréck, an Akronyme, déi net vertraut sinn, soen, vill Laie mënschlech Sproochmodeller. Et erkläert datt den neurale Codec Sproochmodell VALL-E genannt gëtt.
Sécherlech soll dësen Numm Iech erweichen. Wat kéint Angscht sinn un enger Technologie déi bal wéi dee léiwe klenge Roboter aus engem häerzzerräissende Film kléngt?
Gutt, dëst vläicht: “VALL-E entsteet am Kontext Léierfäegkeeten a ka benotzt ginn fir héichqualitativ personaliséiert Ried ze synthetiséieren mat nëmmen enger 3 Sekonnen ageschriwwenen Opnam vun engem onsiichten Lautsprecher als akustesch Prompt.”
Ech wollt dacks Léierfäegkeeten entstoen. Amplaz hunn ech missen zréckgräifen op se ze waarden.
A wat aus dem leschte Saz vun de Fuerscher erauskënnt, zitt. Dem Microsoft säi grousse Gehir brauch elo nëmmen 3 Sekonnen vun Iech eppes ze soen fir méi laang Sätz ze fälschen a vläicht grouss Rieden déi net vun Iech gemaach goufen, awer zimlech wéi Dir kléngen.
Ech ginn net ze vill an d’Wëssenschaft erof, well weder vun eis géif dovunner profitéieren.
Ech wäert just ernimmen datt VALL-E eng Audiobibliothéik benotzt, zesummegesat vun enger vun de bewonnertsten, vertrauenswierdeg Firmen op der Welt – Meta. Genannt LibriLight, et ass e Repository vu 7,000 Leit déi fir insgesamt 60,000 Stonnen schwätzen.
Natierlech hunn ech dem VAL-E seng Aarbecht gelauschtert.
Och: Mir wäerten eng komplett nei Zort Computer gesinn, seet den AI Pionéier Geoff Hinton
Ech hunn e Mann héieren fir 3 Sekonnen ze schwätzen. Dunn hunn ech op déi 8 Sekonnen nogelauschtert, déi seng VALL-E-Versioun opgefuerdert gouf ze soen: “Si hunn sech duerno virsiichteg iwwer d’Hütt, déi virdru getrëppelt an iwwer si geplënnert, fir eppes ze fannen fir ze weisen datt de Warrenton seng Missioun erfëllt huet.”
Ech verdeedegen Iech vill Ënnerscheed ze bemierken, wann iwwerhaapt.
Et ass wouer, datt vill vun de Prompts wéi ganz schlecht Ausschnëtter vun der Literatur vum 18. Prouf: “Also huet dësen humanen a richteg-minded Papp seng onglécklech Duechter getréischt, an hir Mamm, déi se erëm ëmklammen, huet alles gemaach fir hir Gefiller ze berouegen.”
Awer wat kann ech anescht maachen wéi op méi Beispiller vun de Fuerscher lauschteren? E puer ALL-E Versioune waren en Touch méi verdächteg wéi anerer. D’Diktioun huet sech net richteg gefillt. Si hu sech verschmiert gefillt.
Den allgemengen Effekt ass awer pertinent grujeleg.
Dir sidd natierlech scho gewarnt. Dir wësst datt wann Scammers Iech ruffen, Dir sollt net mat hinnen schwätzen am Fall wou se Iech ophuelen an dann Är Diktioun nei kreéieren fir Är abstrakt Stëmm ze maachen deier Produkter ze bestellen.
Och: Benotzt AI-powered Personaliséierung fir onerwënscht Uriff an Texter ze blockéieren
Dëst schéngt awer en aneren Niveau vu Raffinesséierung. Vläicht hunn ech schonn ze vill Episode vum Peacock sengem “The Capture” gekuckt, wou Deepfakes als en natierlechen Deel vun der Regierung presentéiert ginn. Vläicht sollt ech wierklech keng Suergen hunn, well Microsoft ass dës Deeg sou eng flott, inoffensiv Firma.
Wéi och ëmmer, d’Iddi datt iergendeen, jidderengem, ka liicht täuscht ginn fir ze gleewen datt ech eppes soen wat ech net gemaach hunn – an ni géif – mécht mech net mat Komfort. Besonnesch well d’Fuerscher behaapten, si kënnen och d'”Emotioun an d’akustesch Ëmfeld” vun hiren éischten 3 Sekonnen Ried replizéieren.
Dir wäert also erliichtert sinn, datt d’Fuerscher dëst Potenzial fir Onbequemlechkeet gesinn hunn. Si bidden: “Zënter VALL-E kéint Ried synthetiséieren déi d’Speakeridentitéit behält, kann et potenziell Risiken am Mëssbrauch vum Modell droen, sou wéi d’Stëmmidentifikatioun ze spoofen oder e spezifesche Spriecher ze imitéieren.”
D’Léisung? En Detektiounssystem bauen, soen d’Fuerscher.
Wat kann een oder zwee Leit froen: “Firwat hutt Dir dat dann iwwerhaapt gemaach?”
Zimlech dacks an der Technologie ass d’Äntwert: “Well mir kéinten.”