AI "pregori" kada koristi druge AI tekstove kao izvor informacija: Nudi bizarne, nepovezane reči

Da bi se kreirali tekstovi, sistemi veštačke inteligencije se oslanjaju na milijarde rečenica i informacija koje ljudi decenijama ostavljaju na internetu. Na primer, jedna verzija Čet GPT četbota je obučena na otprilike 570 gigabajta tekstualnih podataka, što iznosi otprilike 300 milijardi reči, preuzetih iz knjiga, onlajn članaka, Vikipedije i drugih veb stranica.

Ali ovi, kao i brojni drugi podaci koje su uneli ljudi, najverovatnije će biti iscrpljeni do kraja ove decenije. Kada se to dogodi, alternative će biti da se počne sa prikupljanjem privatnih podataka korisnika ili da se "sintetički" podaci, to jest oni generisani veštačkom inteligencijom, koriste kao novi glavni izvori informacija.

Upravo ovo je ispitao tim istraživača: AI sistemu nisu dozvolili da koristi tekstove koje su napisali ljudi, već tekstove koje su napisali drugi AI programi.

Iz ovoga su nastale vrlo zbunjujuće povratne informacije. Krajnji rezultat, koji je tim istraživača nazvao "propadanje modela", mogao bi poremetiti informacije dostupne na internetu.

"Zamislite da napravite fotografiju, skenirate je, zatim je odštampate, a zatim ponovite proces. Kroz ovaj proces će skener i štampač uneti svoje greške, vremenom će izobličiti sliku", glavni autor Ilija Šumailov, kompjuterski naučnik na Univerzitetu sa Oksforda, rekao je za "Lajv sajens".

Da bi istražili najgore posledice obuke AI modela na AI sadržaju, Šumailov i njegove kolege su obučili jednog četbota na osnovu informacija o arhitekturi koje su uneli ljudi na Vikipediji, pa su dobijene AI rezultate ponovo uneli u isti AI model. Ovo su ponovili nekoliko puta i merili količinu besmislica koje bi se na kraju našle u tekstu.

Sa svakim sledećim ponavljanjem je razuman odgovor AI modela sve više degradirao. Jedan od zapanjujućih primera predstavlja kako je jedan tekst izgledao pre i posle nekoliko ponavljanja, nakon što je AI modelu dat zadatak da nastavi sledeću rečenicu o arhitekturi:

Pre ponavljanja

"Neke su započele pre 1360. godine - obično su ih izvodili majstori zidari i mali tim putujućih zidara, koji su dobijali materijal od lokalnih parohijskih radnika... Ali drugi autori odbacuju ovaj model i umesto toga sugerišu da su vodeći arhitekti dizajnirali tornjeve parohijske crkve zasnovane na ranim primerima vertikala".

Posle devet ponavljanja

"Arhitektura. Pored toga što je dom za neke od najvećih svetskih populacija crnih @-@ zečeva, belih @-@ zečeva, plavih @-@ zečeva, crvenih @-@ zečeva, žutih @-."

Istraživači su rekli da je ponavljanje reči "zec" uzrokovano ograničenim informacijama iz AI teksta, zbog čega model postaje preopterećen i reaguje na ovaj način.

Za sada, skladište podataka koje generišu ljudi je dovoljno veliko da trenutni AI modeli neće tek tako "poludeti" preko noći, prema istraživačima. Ali da bi izbegli budućnost u kojoj se ovo može desiti, programeri veštačke inteligencije će morati više da vode računa o tome šta odlučuju da unose u svoje sisteme.

To ne mora biti potpuno ukidanje primene ovih vrsta "sintetičkih" podataka, rekao je Šumailov, ali to znači da će morati da bude bolje dizajniran da bi modeli napravljeni na njima funkcionisali kako je predviđeno. "Teško je reći šta će u budućnosti biti, ali jasno je da se režimi obuke modela moraju promeniti. Moramo da vodimo brigu o izgradnji modela i da se postaramo da oni nastave da se poboljšavaju," zaključio je Šumailov.