Sažetak
Doktorski rad bavi se izradom računalnog modela pomoću kojeg će se na temelju stilskih obilježja klasificirati žanrovi hrvatske usmene književnosti. Model se izradio pomoću
istraživačkog korpusa koji se sastoji od brojalica, brzalica, epike, lirike i basmi, kao i segmenata općeg suvremenog jezika. Metodama obrade prirodnog jezika ustanovit će se stilska i tekstualna obilježja pojedinih žanrova. Usporedit će se pristup temeljen na stilističkoj teoriji gdje će se kodirati metar, rima, aliteracija i asonanca na temelju slogova i pristup koji će kodirati učestalost pojave glasova i nizova glasova. Produkt ekstrakcije obilježja klasificirat će se pomoću standardnih algoritama za klasifikaciju kao što su naivni Bayes, k-najbližih susjeda, stroj potpornih vektora i drugi kako bi se usporedila njihova uspješnost
Ključne riječi
računalna stilistika; klasifikacija; hrvatska usmena književnost; modeli strojnog
učenja