Tehničko veleučilište u Zagrebu · Zagreb

Višejezično izdvajanje citata iz novinskih članaka

završni rad (sveučilišni)

završni rad (sveučilišni)

Višejezično izdvajanje citata iz novinskih članaka

Vrsta ocjenski radovi
Tip završni rad (sveučilišni)
Godina 2020
Status obranjeno

Sažetak

Završni rad "Višejezično izdvajanje citata iz novinskih članaka" predstavlja različite pristupe izdvajanju citata na više jezika. Rad opisuje proces izdvajanja citata iz novinskih članaka pisanih na više jezika, kao i postojeće probleme pri tom procesu (detekcija i ekstrakcija sadržaja citata, pridruživanje govornika i glagola koji uvodi citat) kroz više različitih pristupa. Također se prikazuju mogući načini razrješavanja koreferencije, koje su česta pojavnost u novinskim tekstovima. Daje se opis sustava i alata koji izdvajaju sve vrste citata iz desetak različitih jezika. Rad nastoji prikazati konkretne probleme koji pri tom procesu nastaju te usporediti različita moguća rješenja tih problema. Na koncu se opisuje prvi korak u gradnji sustava za izdvajanje citata, a to je ručna anotacija podataka. Anotacija obuhvaća označavanje sadržaja citata i njihovog opsega te označavanje govornika (ili, u slučaju zamjenice ili aliasa, naznačavanje originalnog govornika), kao i glagola koji uvodi citat. Uz opis postupka anotacije, opisuju se i različiti problemi na koje se tijekom anotacije naišlo.

Ključne riječi

izdvajanje citata, višejezičnost, računalna obrada jezika, razrješavanje koreferencije