Dok neuroznanstvenici pokušavaju shvatiti način na koji ljudski mozak ono što naše oči vide pretvara u mentalne slike, umjetna inteligencija postaje sve bolja u oponašanju tog pothvata. Nova studija postavljena na bioRxiv pokazuje da umjetna inteligencija može čitati snimke mozga i ponovno stvoriti uglavnom realistične verzije slika koje je osoba vidjela.
Razumijevanje ljudskog uma
Iako zvuči kao nešto iz znanstvenofantastičnog romana, istraživači su uspješno istrenirali sustav umjetne inteligencije da rekreira slike koje su ljudi gledali na temelju skeniranja njihovih mozgova. UI je generirala slike objekata uključujući medvjedića, toranj sa satom i zrakoplov nakon što su sudionici pogledali slične slike.
Iako ova tehnologija skeniranja mozga u sliku još nije spremna za javnu upotrebu, istraživači kažu da bi se jednog dana mogla pokazati korisnom za razumijevanje onoga što se događa u ljudskim umovima. Nakon što znanstvenici još malo poboljšaju koncept, liječnici bi ga mogli upotrijebiti za komunikaciju s paraliziranim ljudima. Neuroznanstvenicima bi mogao pomoći u tumačenju snova ili u razumijevanju kako druge vrste percipiraju svijet oko sebe.
Jednostavniji proces
Mnogi su dosad umjetnu inteligenciju koristili za čitanje snimaka mozga i ponovno stvaranje slika koje je subjekt nedavno vidio, poput ljudskih lica i fotografija krajolika. No, sad su istraživači Sveučilišta u Osaki koristili Stable Diffusion, generator teksta u sliku koji se pojavio u kolovozu prošle godine. Njihov model je mnogo jednostavniji, zahtijeva tisuće umjesto milijuna parametara ili vrijednosti naučenih tijekom obuke.
Dakle, kako to sve funkcionira? Obično korisnik unese riječ ili frazu koju Stable Diffusion, ili druge slične tehnologije kao što su DALL-E 2 i Midjourney, pretvaraju u sliku. Ovaj proces funkcionira jer je UI tehnologija proučila puno postojećih slika i njihovih popratnih tekstualnih naslova i ta obuka tehnologiji omogućuje da identificira uzorke koje zatim može ponovno stvoriti na temelju upita.
Korak dalje
Istraživači su ovu obuku podigli korak dalje podučavajući model umjetne inteligencije za povezivanje podataka funkcionalne magnetske rezonancije (fMRI) sa slikama. Točnije, istraživači su koristili fMRI skeniranje četiriju sudionika koji su pogledali 10.000 različitih slika ljudi, krajolika i predmeta. Drugi UI model uvježbali su da poveže aktivnost mozga u fMRI podacima s tekstualnim opisima slika koje su gledali sudionici studije.
Zajedno, ova dva modela omogućila su Stable Diffusionu da fMRI podatke pretvori u relativno precizne imitacije slika koje nisu bile dio skupa za obuku UI-ja.
Dva modela
Na temelju skeniranja mozga, prvi model je mogao rekreirati perspektivu i raspored koji je sudionik vidio, ali njegove generirane slike bile su tek mutne figure. Potom se uključio drugi model, prepoznajući koji objekt ljudi gledaju pomoću tekstualnih opisa slika za obuku. Dakle, ako bi primio snimku mozga koja nalikuje onom iz njegove obuke označenu kao osoba koja gleda avion, stavio bi zrakoplov u generiranu sliku, slijedeći perspektivu prvog modela. Tehnologija je postigla otprilike 80 posto točnosti.
Rekreirane slike nalikuju originalima, ali s nekim primjetnim razlikama. Verzija lokomotive koju je stvorila umjetna inteligencija, na primjer, obavijena je mutnom sivom maglom, umjesto da prikazuje veselo, jarko plavo nebo stvarne slike. A UI-jev prikaz tornja sa satom izgleda više kao apstraktno umjetničko djelo nego kao njegova stvarna fotografija.
Ograničenja tehnologije
Tehnologija obećava, ali još uvijek ima neka ograničenja, upozorava Science. Ona može samo rekreirati slike objekata uključenih u njegov materijal za obuku. A budući da je umjetna inteligencija obradila moždanu aktivnost samo četvero ljudi, proširenje na ostale zahtijevalo bi obuku modela na skeniranju mozga svake nove osobe, što je skup i dugotrajan proces. Kao takva, tehnologija vjerojatno neće postati široko dostupna javnosti, barem ne u svom trenutnom obliku.