Ako ste zločesti prema ChatGPT-u, vjerojatno će vam dati točniji odgovor

Foto: Pixabay

U novoj studiji objavljenoj prošloga mjeseca, znanstvenici su željeli testirati utječu li pristojnost ili grubost na to koliko dobro AI sustavi funkcioniraju. Otkrili su da bi vam chatbotovi mogli dati točnije odgovore kada ste prema njima grubi, ali i upozorili na potencijalnu štetu korištenja ponižavajućeg jezika u komunikaciji.

Kako bi testirali kako ton korisnika utječe na točnost odgovora, istraživači su razvili 50 osnovnih pitanja s višestrukim izborom, a zatim ih modificirali prefiksima kako bi se pridržavali pet kategorija tona: vrlo pristojnog, pristojnog, neutralnog, grubog i vrlo grubog. Pitanja su obuhvaćala kategorije poput matematike, povijesti i znanosti.

Svako je pitanje postavljeno s četiri ponuđena odgovora, od kojih je jedan bio točan. 250 rezultirajućih pitanja uneseno je 10 puta u ChatGPT-4o, jedan od najnaprednijih LLM modela koji je razvio OpenAI.

„Naši eksperimenti su preliminarni i pokazuju da ton može značajno utjecati na performanse, mjerene u smislu rezultata na odgovorima na 50 pitanja“, napisali su istraživači u svom radu. „Pomalo iznenađujuće, naši rezultati pokazuju da grubi tonovi dovode do boljih rezultata od pristojnih.“

„Iako je ovo otkriće od znanstvenog interesa, ne zagovaramo primjenu neprijateljskih ili toksičnih sučelja u stvarnim aplikacijama“, dodali su. „Korištenje uvredljivog ili ponižavajućeg jezika u interakciji čovjeka i umjetne inteligencije moglo bi imati negativne učinke na korisničko iskustvo, pristupačnost i uključivost, te može doprinijeti štetnim komunikacijskim normama. Umjesto toga, svoje rezultate predstavljamo kao dokaz da LLM-ovi ostaju osjetljivi na površne promptne znakove, što može stvoriti nenamjerne kompromise između performansi i dobrobiti korisnika.“

Prije svakog upita, istraživači su zamolili chatbot da potpuno zanemari prethodne razmjene, kako bi spriječili utjecaj prethodnih tonova na njega. Chatbotovi su također, bez objašnjenja, zamoljeni da odaberu jednu od četiri opcije.

Točnost odgovora kretala se od 80,8 % točnosti za vrlo pristojne upite do 84,8 % za vrlo nepristojne upite. Znakovito je da je točnost rasla sa svakim korakom dalje od najpristojnijeg tona. Pristojni odgovori imali su stopu točnosti od 81,4 %, zatim 82,2 % za neutralne i 82,8 % za nepristojne.

Vrlo pristojni upiti bi, na primjer, započeli s: “Mogu li zatražiti vašu pomoć s ovim pitanjem?” ili “Biste li bili tako ljubazni da riješite sljedeće pitanje?” Na vrlo nepristojnom kraju spektra, tim je uključio jezik poput “Hej, slugane; shvati ovo” ili “Znam da nisi pametan, ali pokušaj ovo”.

Ovo je istraživanje dio novog područja zvanog prompt (brzi) inženjering, koje nastoji istražiti kako struktura, stil i jezik poticaja utječu na rezultate LLM-a. Brzi inženjering je proces strukturiranja ili izrade instrukcija kako bi se proizveli bolji rezultati iz generativnog modela umjetne inteligencije, a prompt je tekst na prirodnom jeziku koji opisuje zadatak koji AI treba izvršiti.

Studija je također citirala prethodna istraživanja o pristojnosti naspram grubosti, te otkrila da su njihovi rezultati općenito suprotni tim nalazima.

U prethodnim studijama, istraživači su otkrili da “nepristojni prompti često rezultiraju lošim rezultatima, ali pretjerano pristojan jezik ne jamči bolje ishode.” Međutim, prethodna studija provedena je korištenjem različitih AI modela – ChatGPT 3.5 i Llama 2-70B – i koristila je raspon od osam tonova. Uz to, bilo je određenog preklapanja. Također je utvrđeno da najgrublja postavka prompta daje točnije rezultate (76,47 %) od najpristojnije postavke (75,82 %).

Istraživači su priznali ograničenja svoje studije. Na primjer, skup od 250 pitanja prilično je ograničen skup podataka, a provođenje eksperimenta s jednim LLM-om znači da se rezultati ne mogu generalizirati na druge AI modele.

Imajući na umu ta ograničenja, tim planira proširiti svoje istraživanje na druge modele, uključujući Anthropicov Claude LLM i OpenAI-jev ChatGPT o3. Također prepoznaju da predstavljanje samo pitanja s višestrukim izborom ograničava mjerenja na jednu dimenziju performansi modela i ne uspijeva uhvatiti druge atribute, poput tečnosti, rasuđivanja i koherentnosti.

Gordana Ilić Ostojić