Većina nas je do sada vjerojatno čula glasove generirane umjetnom inteligencijom (AI) koje je odlikovala ravna intonacija i mehanička isporuka, a koja ostavlja dojam da lako možemo razlikovati AI generirani glas od glasa stvarne osobe. No, znanstvenici sada kažu da prosječni slušatelj više ne može razlikovati stvarne ljude od deepfake glasova.
U novoj studiji objavljenoj u rujnu u časopisu PLoS One, istraživači su pokazali da kada ljudi slušaju ljudske glasove – uz verzije istih glasova generirane umjetnom inteligencijom – ne mogu točno prepoznati koji su stvarni, a koji lažni.
“Glasovi generirani umjetnom inteligencijom sada su svuda oko nas. Svi smo razgovarali s Alexom ili Siri ili su nam pozive primali automatizirani sustavi korisničke službe”, rekla je glavna autorica studije Nadine Lavan, viša predavačica psihologije na Sveučilištu Queen Mary u Londonu, u izjavi za portal LiveScience. “Te stvari ne zvuče baš kao pravi ljudski glasovi, ali bilo je samo pitanje vremena kada će AI tehnologija početi proizvoditi naturalistički, ljudski govor.”
Studija sugerira da, iako generički glasovi stvoreni od nule nisu smatrani realističnima, klonovi glasova obučeni na glasovima stvarnih ljudi – deepfake audio – jednako su uvjerljivi kao i njihovi stvarni pandani.
Znanstvenici su sudionicima studije dali uzorke 80 različitih glasova (40 glasova generiranih umjetnom inteligencijom i 40 stvarnih ljudskih glasova) i zamolili ih da označe koje smatraju stvarnima, a koje AI generiranima. U prosjeku, samo 41 % glasova umjetne inteligencije generiranih od nule pogrešno je klasificirano kao ljudski, što sugerira da ih je u većini slučajeva još uvijek moguće razlikovati od stvarnih ljudi.
Međutim, većina (58 %) glasova kloniranih od stvarnih glasova pogrešno je klasificirana kao ljudski. Samo nešto više (62 %) ljudskih glasova ispravno je klasificirano kao ljudski, što je istraživače navelo na zaključak da nema statističke razlike u našoj sposobnosti da razlikujemo glasove stvarnih ljudi od njihovih deepfake klonova.
Rezultati imaju potencijalno duboke implikacije za etiku, autorska prava i sigurnost, naglasila je Lavan. Ako kriminalci koriste umjetnu inteligenciju za kloniranje vašeg glasa, postaje puno lakše zaobići protokole za provjeru autentičnosti glasa u banci ili prevariti vaše voljene da prebace novac.
Realistični AI glasovi mogu se koristiti i za falsificiranje izjava i intervjua s političarima ili slavnim osobama. Deepfake audio može se koristiti za diskreditiranje pojedinaca ili za poticanje nemira, sijanje društvenih podjela i sukoba. Primjerice, prevaranti su nedavno izradili AI klon glasa premijera Queenslanda Stevena Milesa, kako bi pokušali navesti ljude da ulažu u Bitcoin prijevaru.
Istraživači su naglasili da klonovi glasova koje su koristili u studiji nisu bili posebno sofisticirani. Napravili su ih komercijalno dostupnim softverom i obučili ih s tek četiri minute snimaka ljudskog govora.
„Proces je zahtijevao minimalno stručno znanje, samo nekoliko minuta glasovnih snimaka i gotovo nikakav novac“, pojasnila je Lavan. „To samo pokazuje koliko je tehnologija umjetne inteligencije postala pristupačna i sofisticirana.“
Gordana Ilić Ostojić


























