Metini inženjeri uspeli da generišu video-zapis na osnovu nekoliko reči

Veštačka inteligencija postaje sve bolja i bolja u generisanju slike kao odgovor na nekoliko reči. Istraživači kompanije „Meta“ otišli su korak dalje i uspeli da veštačku inteligenciju iskoriste za pravljenje video-zapisa na tekstualnu komandu. Izvršni direktor kompanije „Meta“, Mark Zakerberg, objavio je na svom profilu na Fejsbuku istraživanje pod nazivom Make-A-Video, uz video-klip od 20 sekundi u kome se vidi kako su istraživači „Mete“ proizveli video-zapise (doduše veoma kratke) na osnovu nekoliko tekstualnih komandi. Pisane poruke glase: „Plišani medved koji slika autoportret“, „Svemirski brod koji sleće na Mars“, „Mladunče lenjivca sa pletenim šeširom pokušava da pronađe laptop“ i „Robot koji surfuje na talasima“.

Video-snimci za svaku poruku su dugi samo nekoliko sekundi i uglavnom demonstriraju šta je zahtevano (sa izuzetkom mladunčeta lenjivca, koje ne liči mnogo na stvarno stvorenje). Snimci su u prilično niskoj rezoluciji i slika se trese.

I pored svih mana, ovi snimci demonstriraju novi pravac u kojem istraživanje veštačke inteligencije ide jer sistemi postaju sve bolji u generisanju slika na osnovu reči. Međutim, ako ova tehnologija na kraju bude usavršena i počne da se koristi, to će ponovo izazvati istu zabrinutost kao i kada su se pojavili algoritmi za pretvaranje teksta u sliku, pre svega strah da bi se mogla koristiti za širenje dezinformacija putem video-matrijala. Na veb-stranici Make-A-Video mogu se videti pomenuti kratki klipovi, ali i drugi od kojih neki izgledaju prilično realistično, kao na primer video-klip napravljen na komandu „Riba klovn pliva kroz koralni greben“ ili „Mladi par šeta po jakoj kiši“.

U svojoj objavi na Fejsbuku, Zakerberg je istakao koliko je teško generisati pokretnu sliku na osnovu nekoliko reči. „Mnogo je teže napraviti video-klip nego fotografije jer pored pravilnog generisanja svakog piksela, sistem takođe mora da predvidi kako će se oni promeniti“, istakao je izvršni direktor „Mete“.

U istraživačkom radu u kome se objašnjava kako funkcioniše ovaj projekat, stoji da veštačka inteligencija koristi model od teksta do slike da bi otkrio kako reči korespondiraju sa slikama i tehniku veštačke inteligencije poznatu kao „učenje bez nadzora“ – u kojoj algoritmi preispituju podatke koji nisu označeni kako bi prepoznali obrasce unutar njega – da pogledaju video-zapise i odrede kako izgleda realistično kretanje. Kao i kod poznatih, popularnih sistema veštačke inteligencije koji generišu slike iz teksta, istraživači su istakli da je njihov model veštačke inteligencije od teksta do slike „nahranjen“ podacima sa interneta – što znači da je naučio „i verovatno usvojio brojne društvene predrasude, uključujući i one negativne“, stoji u radu. Napominju da su filtrirali podatke za „nepoželjan sadržaj i toksične reči“, ali pošto skupovi podataka mogu da sadrže više miliona slika i teksta, možda neće biti moguće ukloniti sav takav sadržaj. Zakerberg je napisao da „Meta“ planira da u budućnosti podeli korisnicima demo projekat Make-A-Video.

Izvor: RTS

Više

Metini inženjeri uspeli da generišu video-zapis na osnovu nekoliko reči

Izbor pisma

Vaš pouzdan izvor za tačne i blagovremene informacije!

Popularni članci

Rojters: Izraelska kampanja da se Južni Liban odseče od ostatka zemlje i pretvori u „tampon zonu“

Kineski automobili osvajaju Rusiju

Branko Milanović: Kraj globalnog neoliberalizma – Tramp kao oruđe istorije

O nama

Kategorije

Korisni linkovi

Više

Izbor pisma

Vaš pouzdan izvor za tačne i blagovremene informacije!

Popularni članci

Rojters: Izraelska kampanja da se Južni Liban odseče od ostatka zemlje i pretvori u „tampon zonu“

Kineski automobili osvajaju Rusiju

Branko Milanović: Kraj globalnog neoliberalizma – Tramp kao oruđe istorije

Možda Vam se svidi

Pesma koja je podelila Ameriku

Srbin po ugovoru

Ujmesto da hapse kriminalce, uhodili su Mitropolita

IDE GAS Uloga Titela u svjetskoj istoriji

Kategorije

Korisni linkovi