stručni rad

Veliki jezični modeli – potraga za umjetnom inteligencijom

Reni Banov

Sažetak

Unazad deset godina zamjećujemo veliki porast zanimanja za rješenjima ostvarenim primjenom umjetne inteligencije na konkretnim problemima iz različitih područja, pa se ona, primjerice, koristi za e-trgovine na međumrežju, za obrazovne aktivnosti, za autonomnu navigaciju, za upravljanje u robotici, te u brojnim drugim područjima. Međutim, niti jedno od brojnih rješenja nije privuklo medijsku pozornost kao nedavna primjena umjetne inteligencije za generiranje i “razumijevanje” tekstualnih zapisa prirodnih jezika. Takvi se modeli u pravilu nazivaju velikim jezičnim modelima (eng. Large Language Models, skraćeno LLM) jer su pripremljeni procesom učenja neuronskih mreža na velikim skupovima ulaznih podataka, prvenstveno iz tekstualnih zapisa (novinski i znanstveni članci, mrežne stranice, komunikacija na forumima itd.) s međumrežja. Iako je primjena takvih modela prividno neograničena, ona u brojnim aspektima ljudske komunikacije pokazuju manjkavosti. U ovom članku pokušat ćemo razjasniti osnovne matematičke pojmove povezane s tim modelima, te djelomično prikazati pozitivne i negative strane njihove primjene.

Ključne riječi

LLMveliki jezični modeliumjetna inteligencija