
Veštačka inteligencija postaje sve bolja i bolja u generisanju slike kao odgovor na nekoliko reči. Istraživači kompanije „Meta“ otišli su korak dalje i uspeli da veštačku inteligenciju iskoriste za pravljenje video-zapisa na tekstualnu komandu. Izvršni direktor kompanije „Meta“, Mark Zakerberg, objavio je na svom profilu na Fejsbuku istraživanje pod nazivom Make-A-Video, uz video-klip od 20 sekundi u kome se vidi kako su istraživači „Mete“ proizveli video-zapise (doduše veoma kratke) na osnovu nekoliko tekstualnih komandi. Pisane poruke glase: „Plišani medved koji slika autoportret“, „Svemirski brod koji sleće na Mars“, „Mladunče lenjivca sa pletenim šeširom pokušava da pronađe laptop“ i „Robot koji surfuje na talasima“.
Video-snimci za svaku poruku su dugi samo nekoliko sekundi i uglavnom demonstriraju šta je zahtevano (sa izuzetkom mladunčeta lenjivca, koje ne liči mnogo na stvarno stvorenje). Snimci su u prilično niskoj rezoluciji i slika se trese.
I pored svih mana, ovi snimci demonstriraju novi pravac u kojem istraživanje veštačke inteligencije ide jer sistemi postaju sve bolji u generisanju slika na osnovu reči. Međutim, ako ova tehnologija na kraju bude usavršena i počne da se koristi, to će ponovo izazvati istu zabrinutost kao i kada su se pojavili algoritmi za pretvaranje teksta u sliku, pre svega strah da bi se mogla koristiti za širenje dezinformacija putem video-matrijala. Na veb-stranici Make-A-Video mogu se videti pomenuti kratki klipovi, ali i drugi od kojih neki izgledaju prilično realistično, kao na primer video-klip napravljen na komandu „Riba klovn pliva kroz koralni greben“ ili „Mladi par šeta po jakoj kiši“.
U svojoj objavi na Fejsbuku, Zakerberg je istakao koliko je teško generisati pokretnu sliku na osnovu nekoliko reči. „Mnogo je teže napraviti video-klip nego fotografije jer pored pravilnog generisanja svakog piksela, sistem takođe mora da predvidi kako će se oni promeniti“, istakao je izvršni direktor „Mete“.
U istraživačkom radu u kome se objašnjava kako funkcioniše ovaj projekat, stoji da veštačka inteligencija koristi model od teksta do slike da bi otkrio kako reči korespondiraju sa slikama i tehniku veštačke inteligencije poznatu kao „učenje bez nadzora“ – u kojoj algoritmi preispituju podatke koji nisu označeni kako bi prepoznali obrasce unutar njega – da pogledaju video-zapise i odrede kako izgleda realistično kretanje. Kao i kod poznatih, popularnih sistema veštačke inteligencije koji generišu slike iz teksta, istraživači su istakli da je njihov model veštačke inteligencije od teksta do slike „nahranjen“ podacima sa interneta – što znači da je naučio „i verovatno usvojio brojne društvene predrasude, uključujući i one negativne“, stoji u radu. Napominju da su filtrirali podatke za „nepoželjan sadržaj i toksične reči“, ali pošto skupovi podataka mogu da sadrže više miliona slika i teksta, možda neće biti moguće ukloniti sav takav sadržaj. Zakerberg je napisao da „Meta“ planira da u budućnosti podeli korisnicima demo projekat Make-A-Video.
Izvor: RTS