završni rad (sveučilišni)
Analiza sentimenta u paralelnim korpusima hrvatskog i poljskog jezika
Sažetak
U području obrade jezika postoji nedostatak hrvatskog korpusa teksta označenog sa sentimentima koji omogućuje njihovu analizu. U radu je opisan proces stvaranja dva takva korpusa, tj. paralelnog hrvatsko-poljskog korpusa, a na temelju postojećih oznaka iz engleskog korpusa. Engleski izvornik je nastao na temelju televizijske serije Friends. Strojnom obradom u vlastitom Python programu, prevedeni su na hrvatski i poljski jezik tekstovi iz engleskog korpusa te izvršena njihova analiza. U radu su prikazani i dokumentirani problemi s kojima se je pri tome trebalo suočiti i koje je trebalo riješiti.
Ključne riječi
paralelni korpus, sentiment, obrada prirodnog jezika