OpenAI-jev alat za transkripciju Whisper, hvaljen zbog svoje robustnosti i točnosti na ljudskoj razini, pokazao je značajan nedostatak: ponekad izmišlja fraze ili cijele rečenice, poznate u AI industriji kao "halucinacije". Preko desetak stručnjaka, uključujući softverske inženjere, programere i akademske znanstvenike, potvrdilo je da Whisper povremeno ubacuje lažne informacije, koje mogu varirati od rasnih komentara do izmišljenih medicinskih savjeta.
Široka uporaba
To je pitanje posebno zabrinjavajuće s obzirom na široku upotrebu tog alata u svim industrijama za prevođenje intervjua, generiranje teksta i stvaranje video titlova. Medicinski centri su čak počeli integrirati Whisper u interakciju između liječnika i pacijenta, usprkos savjetima samog OpenAI-ja da se taj alat ne koristi u domenama visokog rizika. Prema istraživačima, Whisperove halucinacije često se pojavljuju u njihovom radu, a jedan istraživač sa Sveučilišta Michigan primijetio je, da je osam od deset transkripata koje je pregledao, sadržavalo takve netočnosti.
U drugom slučaju, inženjer strojnog učenja otkrio je halucinacije u gotovo polovici od više od 100 sati analiziranih transkripcijskih podataka, dok ih je drugi programer pronašao u gotovo svih od 26.000 Whisper transkripata koje je analizirao. Čak ni čisti zvučni uzorci nisu imuni; nedavna studija o više od 13.000 audio zapisa pronašla je 187 slučajeva halucinacije teksta, izazivajući zabrinutost oko pouzdanosti Whispera u velikim razmjerima.
"Letvica bi trebala biti viša"
Alondra Nelson, bivša ravnateljica Ureda za znanost i tehnološku politiku Bijele kuće, izrazila je zabrinutost zbog mogućih posljedica pogrešaka u transkripciji, posebno u zdravstvu. Nitko ne želi pogrešnu dijagnozu... trebala bi biti viša letvica, poručila je. Christian Vogler, profesor sa Sveučilišta Gallaudet, također je upozorio na rizik za gluhe i nagluhe, koji ne mogu lako otkriti pogreške unutar transkribiranog sadržaja.
Usred navedenih zabrinutosti, stručnjaci i zagovornici pozivaju OpenAI i američke savezne agencije da se pozabave tim problemom i razmotre regulaciju umjetne inteligencije. William Saunders, bivši istraživački inženjer koji je napustio OpenAI u veljači, sugerirao je da je problem rješiv, ali da mu OpenAI mora dati prioritet. Problematično je ako to pustite van i ljudi su previše uvjereni u to što može učiniti te ga integriraju u sve te druge sustave, rekao je Saunders.
Kao odgovor, OpenAI je rekao da aktivno istražuje načine za smanjenje halucinacija i redovito integrira povratne informacije svoje zajednice korisnika. Whisper je integriran u razne tehnologije, uključujući OpenAI-jev ChatGPT, Microsoftove i Oracleove usluge u oblaku i platforme otvorenog koda kao što je HuggingFace, gdje je samo u proteklom mjesecu preuzet više od 4,2 milijuna puta.
Ni savjeti OpenAI-ja se ne slušaju
Akademici Allison Koenecke sa Sveučilišta Cornell i Mona Sloane sa Sveučilišta Virginia analizirali su tisuće audio isječaka i otkrili da je gotovo 40 posto Whisperovih halucinacija potencijalno štetno, uključujući fraze koje krivo predstavljaju govornike. Jedan uznemirujući primjer dodao je nasilan jezik bezazlenoj izjavi, dok je drugi umetnuo rasne opise, a treći je izmislio nepostojeći lijek.
Programeri nagađaju da se Whisperove halucinacije često događaju tijekom pauza ili pozadinske buke. Dokumentacija OpenAI-ja savjetuje da se Whisper ne koristi u kontekstu donošenja odluka zbog zabrinutosti oko njegove točnosti. Bez obzira na to, zdravstvene ustanove poput klinike Mankato u Minnesoti i dječje bolnice u Los Angelesu usvajaju alat temeljen na Whisperu koji je razvila tvrtka Nabla za prepisivanje liječničkih konzultacija.
Nablin AI alat zapravo briše izvorni audio zapis iz sigurnosnih razloga i korišten je u više od 7 milijuna medicinskih konzultacija. Saunders je upozorio da bi to brisanje moglo biti riskantno ako se transkripti ne pregledaju temeljito, jer onemogućuje kliničarima da potvrde točnost. "Ne možete uhvatiti pogreške ako oduzmete temeljnu istinu", rekao je.
Nabla priznaje mogućnost halucinacija i, iako zahtijevaju ručni pregled transkripata, predviđaju budućnost u kojoj bi automatizirani prijepisi mogli raditi bez provjere.
Izvor: AP