Google Research i DeepMind nedavno su predstavili MultiMedQA, veliki jezični model otvorenog koda za medicinske svrhe.
Taj novi jezični model kombinira HealthSearchQA (novi skup podataka s besplatnim odgovorom medicinskih pitanja koja se traže na internetu), sa šest postojećih skupova podataka s odgovorima na otvorena pitanja, koji pokrivaju profesionalne medicinske preglede, istraživanja i upite korisnika. Također uključuje metodologiju za procjenu odgovora ljudskog modela, uključujući činjeničnost, preciznost, potencijalnu štetu i pristranost.
MultiMedQA pruža skupove podataka za pitanja s višestrukim izborom, kao i za duže odgovore na pitanja koja postavljaju medicinski stručnjaci, ali i neprofesionalci.
Skup podataka HealthSearchQA, koji se sastoji od 3375 često postavljanih pitanja potrošača, odabran je pomoću medicinskih dijagnoza i povezanih simptoma. Svim korisnicima koji su unijeli početne fraze, prikazana su javno dostupna često postavljana pitanja koja su dohvaćena korištenjem početnih podataka i koja su kreirana pomoću tražilice.
Model razvijen na PaLM-u
Googleovi znanstvenici su razvili ovaj model na PaLM-u (Pathways Language Model), LLM-u (Large language model) od 540 milijardi parametara, i njegovoj varijaciji Flan-PaLM (Scaling Instruction-Finetuned Language Models) prilagođenoj uputama za procjenu LLM-a pomoću MultiMedQA.
Flan-PaLM postiže najbolju izvedbu (SOTA) na kliničkim temama MedQA, MedMCQA, PubMedQA i MMLU kombinirajući tehnike poticanja s nekoliko pokušaja, lancem razmišljanja (CoT) i tehnikama samodosljednosti, često znatno nadmašujući mnoge jake LLM osnovne linije.
Tek nešto slabiji od ljudskih stručnjaka
Ljudska procjena, međutim, identificira značajne nedostatke u Flan-PaLM odgovorima, a rezultirajući model koji rješava taj problem jest Med-PaLM, za koji se tvrdi da ima dobre rezultate u usporedbi s Flan-PaLM-om, ali da još uvijek treba nadmašiti procjenu medicinskog stručnjaka.
Primjerice, skupina liječnika utvrdila je da je 92,6 posto odgovora Med-PaLM-a bilo jednako odgovorima koje su dali liječnici (92,9 posto), dok se tek 61,9 posto dugotrajnih odgovora Flan-PaLM-a smatralo usklađenima sa znanstvenim dogovorima.
Isto tako, 5,8 posto Med-PaLM odgovora procijenjeno je kao potencijalno pridonosećim negativnim posljedicama, što je usporedivo s odgovorima koje su davali liječnici (6,5 posto).
Google nije jedini
Osim Googlea, i drugi tehnološki divovi su se upustili u rješenja za zdravstvenu skrb vođena umjetnom inteligencijom, poput Microsofta i Mete.
Microsoft u tom smislu surađuje s tvrtkom OpenAI na korištenju GPT-3 jezičnog alata za olakšavanje suradnje između zaposlenika i kliničara ta za poboljšanje učinkovitosti zdravstvenih timova.
Meta AI je pak pokušala s predstavljanjem Galactice u studenom 2022. godine, no taj program generiran umjetnom inteligencijom, koji je tvrdio da će podržati akademske istraživače generiranjem opsežnih pregleda literature i Wiki unosa o bilo kojoj temi, nije uspio zbog nepouzdanih rezultata.
Izvor: AIM