Rezultati

V spodnjih razdelkih so predstavljeni glavni rezultati projekta:

  1. SPREMLJEVALNI KORPUS TRENDI. Prvi spremljevalni korpus za slovenski jezik, ki se vsak mesec poveča za 15-20 milijonov besed. Več podatkov najdete na https://sled.ijs.si/korpus-trendi/.
  2. ANKETA MED UPORABNIKI. Opravili smo anketo med zainteresiranimi uporabniki korpusa Trendi in podatkov o aktualni jezikovni rabi. Poročilo je objavljeno tukaj. Več informacij najdete tudi v projektnih publikacijah.
  3. FREKVENČNI SEZNAMI. Vsak seznam vsebuje besede oz. nize besed, katerih raba je v izbranem obdobju v primerjavi s prejšnjim obdobjem najbolj opazno narasla. Tako recimo frekvenčni seznam iz leta 2021 vsebuje primerjavo relativne pogostosti besed v korpusu Trendi v letu 2021 z relativno pogostostjo besed v obdobju 1991-2020 (torej v korpusu Gigafida 2.0 in korpusu Trendi v letih 2019-2020). Objavili smo sledeče frekvenčne sezname:
  4. ORODJE ZA TEMATSKO OZNAČEVANJE BESEDIL. Pripravili smo nabor 13 tematskih kategorij za razvrščanje besedil: umetnost in kultura, črna kronika, gospodarstvo, okolje, zdravje, prosti čas, politika in pravo, znanost in tehnologija, družba, šport, vreme, zabava, izobraževanje. Za vsako od kategorij smo izdelali učne množice, ki so služile kot osnova za učenje modelov. Učne množice smo izdelali z mapiranjem kategorij različnih virov novic. Za modeliranje smo uporabili orodje fasttext (Joulin et al, 2016) z vložitvami CLARIN.SI (Ljubešić in Erjavec, 2018) in model SloBERTa (Ulčar in Robnik-Šikonja, 2021). Čeprav se je model SloBERTa izkazal za boljšega (0,93 oz. 93 % uspešnost napovedovanja kategorij), smo objavili tudi model fasttext (0.85), saj je slednji občutno hitrejši pri procesiranju velike količine besedil.Izdelane modele smo objavili tako v repozitoriju CLARIN.SI kot tudi na portalu HuggingFace (ob podpori CJVT UL). Klasifikacijski model SloBERTa-Trendi-Topics je bil namreč preobsežen za GitHub in smo morali izbrati alternativni diseminacijski kanal. Relevantne povezave: