stručni rad

Veliki jezični modeli – potraga za umjetnom inteligencijom

Sažetak

Unazad deset godina zamjećujemo veliki porast zanimanja za rješenjima ostvarenim primjenom umjetne inteligencije na konkretnim problemima iz različitih područja, pa se ona, primjerice, koristi za e-trgovine na međumrežju, za obrazovne aktivnosti, za autonomnu navigaciju, za upravljanje u robotici, te u brojnim drugim područjima. Međutim, niti jedno od brojnih rješenja nije privuklo medijsku pozornost kao nedavna primjena umjetne inteligencije za generiranje i “razumijevanje” tekstualnih zapisa prirodnih jezika. Takvi se modeli u pravilu nazivaju velikim jezičnim modelima (eng. Large Language Models, skraćeno LLM) jer su pripremljeni procesom učenja neuronskih mreža na velikim skupovima ulaznih podataka, prvenstveno iz tekstualnih zapisa (novinski i znanstveni članci, mrežne stranice, komunikacija na forumima itd.) s međumrežja. Iako je primjena takvih modela prividno neograničena, ona u brojnim aspektima ljudske komunikacije pokazuju manjkavosti. U ovom članku pokušat ćemo razjasniti osnovne matematičke pojmove povezane s tim modelima, te djelomično prikazati pozitivne i negative strane njihove primjene.

Ključne riječi

LLMveliki jezični modeliumjetna inteligencija