
Čak 90 odsto ljudi ne može da razlikuje video generisan veštačkom inteligencijom od pravog

Svi smo videli snimke na mrežama kako kengur tužno drži bording kartu dok mu stjuardesa ne da da uđe u avion, ili kako se medved slobodno kupa i baškari u bazenu. Simpatični snimci izazovu divljenje ili osmeh. Naime, više od 90 odsto od 1043 učesnika ne može da razlikuje petominutne video snimke koje je kreirala veštačka inteligencija od pravih snimaka, rezultati su kompanije Ranvej koja je sprovela istraživanje. Takođe, prosečna tačnost prepoznavanja iznosila je oko 57 odsto.
Kompanija opisuje ovaj rezultat kao "fundamentalnu promenu u načinu na koji treba da percipiramo autentičnost video snimaka" i tvrdi da je "industrija generisanih video snimaka i društvo u celini dostiglo prekretnicu u kojoj prosečna osoba ne može da odredi da li je video kreiran veštačkom inteligencijom ili nije".
Eksperiment je sproveden u formatu poređenja: 1043 učesnika su nasumično gledali po 20 snimaka u trajanju od 5 sekundi (po 10 pravih i 10 generisanih), a zatim su morali da označe da li je svaki od njih pravi ili kreiran veštačkom inteligencijom.
Svi generisani snimci napravljeni su uz pomoć osnovnog modela Runway Gen-4.5 u režimu image-to-video: iz prvog kadra videa generisan je klip, pri čemu ni jedan snimak nije prepravljan ili obrađen u postprodukciji. Učesnicima je bilo dozvoljeno da gledaju svaki snimak do 10 sekundi, nakon čega su morali da fiksiraju svoj izbor; pravi i generisani klipovi bili su izjednačeni po trajanju i rezoluciji.
Samo 99 od 1043 učesnika (9,5 odsto) pokazalo je statistički značajnu tačnost (najmanje 15 tačnih odgovora od 20).
Ukupna tačnost prepoznavanja iznosila je 57,1 odsto - samo malo iznad slučajnog pogodka od 50 odsto. To ukazuje na odsustvo stabilne strategije prepoznavanja, prema podacima pomenute kompanije.
Tačnost prepoznavanja značajno se razlikovala po tipovima sadržaja: snimci sa ljudima (lica, ruke, pokreti) prepoznavali su se bolje (58-65 odsto), dok su videa sa životinjama i arhitekturom imala tačnost do 45-47 odsto - učesnici su češće smatrali generisane snimke pravim.
Kompanija povezuje napredak u generisanim video snimcima sa razvojem takozvanih "opštih modela sveta", sistema koji realistično modeliraju fizičku stvarnost. Autori istraživanja naglašavaju da je "realistična simulacija preduslov za rešavanje složenih zadataka u fizičkom svetu".
Generisanje videa zasnovano na veštačkoj inteligenciji efikasno dostiglo prag gde masovna publika više ne može da razlikuje video zapise generisane neuronskim mrežama od stvarnih snimaka, govori istraživanje. Ovo pitanje poverenja u vizuelni sadržaj podiže na novi nivo.
Kada sintetički video postane takav da ne može da se razlikuje od stvarnog, klasičan pristup borbi protiv dezinformacija putem deepfake detektora gubi svoju efikasnost. Eksperiment pokazuje da je čak i uz koncentrisanu pažnju i ograničen skup video snimaka, prosečna tačnost prepoznavanja je samo malo bolja od slučajnog pogađanja, piše RBK.


