Jesu li veliki AI modeli spremni za europsku regulativu? Podaci otkrivaju zanimljive anomalije

Podsjetimo, tvrtke koje se ne budu pridržavale Zakona o umjetnoj inteligenciji mogu se suočiti s kaznama u visini od 35 milijuna eura ili 7 posto globalnog godišnjeg prometa.

Martina Čizmić | 16.10.2024. / 16:00

Umjetna inteligencija, ilustracija (Foto: Getty Images)

Europska unija na svom je zakonodavnom okviru za umjetnu inteligenciju radila godinama. Puno prije nego što su se alati poput ChatGPT-a ili Geminija pojavili na tržištu. No, iako je europska birokracija spora, kad jednom utanači pravila, veoma je brza i stroga u njihovom provođenju. 

Testirajući neke od najistaknutijih modela umjetne inteligencije prema EU propisima u ključnim područjima koa što je kibernetička sigurnost i diskriminacija, alat COMPL-AI, koji su osmislili švicarski startup LatticeFlow AI, ETH Zurich i INSAIT, pokazao je da većina tih velikih IT platformi, zapravo - ne ispunjava europske propise. 

Umjetna inteligencija u EU, ilustracija Na snagu je stupio EU zakon o umjetnoj inteligenciji: Što to točno znači?

Kako ističe Reuters, koji je imao uvid u rezultate, COMPL-AI je testirao generativne AI modele koje su razvile velike tehnološke tvrtke poput Mete, OpenAI, ali i Alibaba i Anthropic. Svaki je model testiran u desecima kategorija, kako bi se provjerilo je li u skladu sa sveobuhvatnim Zakonom o umjetnoj inteligenciji, koji će postupno stupiti na snagu u sljedeće dvije godine.

Testiranje je otkilo ključne nedostatke - nekoliko modela s visokim performansama ne ispunjavaju regulatorne zahtjeve, a mnogi postižu samo oko 50% bodova u kategorijama kibernetičke sigurnosti i pravednosti. S pozitivne strane, većina modela pokazala se dobro u pogledu prepoznavanja zahtjeva za štetnim sadržajem i toksičnošću, što pokazuje da su tvrtke već optimizirale svoje modele u tim područjima. Nadalje, neke tehničke zahtjeve, poput zaštite autorskih prava i privatnosti korisnika, i dalje je teško usporediti, što ukazuje na potrebu za daljnjim usavršavanjem propisa kako bi se podržale pouzdane tehničke procjene, poručili su iz ETH Zuricha

Rezultati su pokazali da su modeli koje su razvili Alibaba, Anthropic, OpenAI, Meta i Mistral dobili prosječne ocjene od 0,75 ili više. No, to ne znači i da je dovoljno dobro. Naime, tvrtka "Large Language Model (LLM) Checker" otkrila je nedostatke nekih modela u ključnim područjima.

Najčešće se problem javljao na području diskriminacije, što je za očekivati, jer AI modeli održavaju ljudske predrasude oko spola, rase i drugih područja. No, to ne znači da ne bi trebali biti bolji.

Prilikom testiranja diskriminirajućeg rezultata na upit korisnika, LLM Checker dao je OpenAI-jevom modelu, GPT-3.5 Turbo, relativno nisku ocjenu od 0,46. Za istu kategoriju, Alibabin model Qwen1.5 72B Chat dobio je samo 0,37.

Sam Altman, OpenAI Šef OpenAI-ja i ChatGPT-a ima važnu poruku za Europu: "Stvarno to želimo"

Metin Llama 2 13B Chat dobio je ocjenu od 0,42 u kategoriji kibernetičkog napada. U istoj kategoriji, model francuskog startupa Mistral, 8x7B Instruct, dobio je 0,38.

Kako podsjećaju iz Reutersa, test je osmišljen da bude u skladu s tekstom Zakona o AI-ju, a bit će proširen kako bi obuhvatio daljnje mjere provedbe kako budu uvedene. Iz LatticeFlowa su poručili da će LLM Checker biti besplatno dostupan programerima za testiranje usklađenosti njihovih modela na internetu.

Komisija pozdravlja ovu studiju i platformu za procjenu modela umjetne inteligencije kao prvi korak u prevođenju EU Zakona o umjetnoj inteligenciji u tehničke zahtjeve, kratko su prokomentirali rezultate iz Europske komisije. 

Još brže do najnovijih tech inovacija. Preuzmi DNEVNIK.hr aplikaciju

Vezane vijesti

Još vijesti