Korpus Trendi

Korpus Trendi je spremljevalni korpus slovenskega jezika. Vsebuje novice z več kot 100 medijskih spletnih strani 48 različnih izdajateljev. Pridobivanje besedil je zaenkrat vezano na servis JSI Newsfeed na Institutu “Jožef Stefan” (Trampuš in Novak, 2012), ki uporablja protokol RSS novic.

Za strojno označevanje besedil uporabljamo označevalni cevovod classla-stanza (Ljubešić in Dobrovoljc, 2019),[1] ki se kot referenčno orodje za slovnično označevanje besedil v slovenščini aktivno razvija v okviru projekta RSDO. Orodje je nadgradnja odprtokodnega orodja Stanza (Qi et al., 2020), ki v primerjavi z izvorno programsko opremo podrobneje naslavlja specifike slovenščine, zlasti na ravni stavčne segmentacije, tokenizacije, oblikoskladenjskega označevanja in lematizacije po sistemu JOS (Erjavec et al., 2010). Poleg navedenih ravni orodje besedila tudi skladenjsko razčleni po sistemu Universal Dependencies (Dobrovoljc et al., 2017) in v njih označi imenske entitete (Zupan et al., 2017), kot so imena oseb, krajev, organizacij ipd.

Korpus Trendi na voljo v konkordančnikih CLARIN.SI:

Navajanje korpusa:

Kosem, Iztok; et al., 2022, Monitor corpus of Slovene Trendi 2022-10, Slovenian language resource repository CLARIN.SI, ISSN 2820-4042,  http://hdl.handle.net/11356/1681.

[1] https://pypi.org/project/classla/