Problem deepfake odnosno lažnih videa sve je rašireniji na internetu, unatoč pokušajima da se njihovo širenje ograniči i jasno označi. No, grupu znanstvenika zanimalo je koliko je teško prepoznati deepfake govor odnosno audio snimku?
Istraživači s University Collegea u Londonu okupili su 529 sudionika istraživanja i pustili im 100 deepfake uzoraka govora. Dio na engleskom, a dio na kineskom mandarinskom. Za stvaranje tih uzoroka koristili su dva javno dostupna skupa podataka.
Sudionici su trebali poslušati uzorke i dati svoje mišljenje je li uzorak stvaran ili deepfake. Znanstvenici su otkrili da su sudionici uspjeli prepoznati lažne govornike u 73 posto slučajeva. Nakon što su sudionici prošli obuku za prepoznavanje deepfake govora, situacija se nešto popravila, ali znanstvenici i dalje nisu bili zadovoljni rezultatima.
Pokazali smo da obučavanje ljudi za otkrivanje deepfakeova nije nužno pouzdan način da im se pomogne da postanu bolji u tome, istaknula je autorica studije Kimberly Mai te dodala kako, nažalost, ni automatizirani detektori nisu pouzdani.
Stvarno su dobri u otkrivanju deepfakeova, ako su imali takve primjere tijekom obuke. Ali nisu pouzdani ako postoje promjene u audio uvjetima, primjerice ako postoji drugi zvučnik, dodala je Mai.
Iako postoje prednosti generativne AI audio tehnologije, kao što je veća pristupačnost za one čiji govor može biti ograničen ili koji mogu izgubiti glas zbog bolesti, raste strah da bi takvu tehnologiju mogli koristiti kriminalci i nacionalne države za nanošenje značajne štete pojedincima i društvima.
Problem sa detekcijom deepfake govora je u činjenici da ima manje tragova koje otkrivaju je li umjetno stvoren, nego što je to slučaj s deepfake videom.
Stoga autori studije, objavljene u časopisu PLOS ONE, smatraju da je važno poboljšati automatizirane detektore deepfake govora, a tvrtke i organizacije bi trebale razmisliti o strategijama za ublažavanje prijetnje koju predstavlja deepfake sadržaj.