Implementiran projekat Platforma za istraživanje digitalizovanog sadržaja novinskih kolekcija potpomognuta jezičkim tehnologijama za srpski jezik (PISAN)
Implementiran projekat Platforma za istraživanje digitalizovanog sadržaja novinskih kolekcija potpomognuta jezičkim tehnologijama za srpski jezik (PISAN)
Univerzitetska biblioteka „Svetozar Marković“ uspešno je implementirala projekat
Platforma za istraživanje digitalizovanog sadržaja novinskih kolekcija
potpomognuta jezičkim tehnologijama za srpski jezik (PISAN). Projekat je urađen u
okviru Konkursa za finansiranje ili sufinansiranje projekata iz oblasti
digitalizacije kulturnog nasleđa u 2025. godini MINISTARSTVA KULTURE
REPUBLIKE SRBIJE, a na osnovu REŠENJA br. 003903639 2025 11800 001 013 630 002
od 23.09.2025. godine i Ugovora br. 451-04-1830/2025-02 od 07.10.2025.
Platforma za istraživanje digitalizovanog sadržaja novinskih kolekcija (PISAN)
potpomognuta jezičkim tehnologijama za srpski jezik predstavlja inovativni sistem
osmišljen za analizu i obradu velikih korpusa novinskih tekstova. Glavna ideja
proizlazi iz potrebe korisnika da se kulturno nasleđe i bogatstvo istorijskih časopisa
na srpskom jeziku učine dostupnijim za analizu i interpretiranje pomoću savremenih
tehnologija obrade prirodnog jezika. Tokom specifikacije korisničkih potreba jasno je
ukazana potreba za ponovnim prepoznavanjem karaktera imajući u vidu brz razvoj novih i
inovativnih metoda potpomognutih velikim jezičkim modelima koje daju mnogo bolje
rezultate. Prilikom obrade teksta osloniti se na opšteprihvaćene standarde, u prvom
redu TEI (Text Enciding Iniciative) i na najbolje modele koji trenutno postoje za srpski
jezik kada je u pitanju obeležavanje imenovanih entiteta i njihovo povezivanje sa bazama
znanja. Izabrati razvojnu platformu koja će omogućiti publikovanje, dobru
vizuelizaciju i pretraživanje punog teksta, koja je uz to pogodna za digitalne
humanističke projekte, korpuse, digitalna izdanja i arhive.
Projekat se oslanjao na automatsko raščitavanje (optičko prepoznavanje karaktera) i
korekciju teksta, potom transformaciju u TEI (Text Enciding Iniciative) dokument sa
strukturnim elementima (odeljci, paragrafi, rečenice) za šta je kreiran poseban
program prilagođen potrebama projekta. Sledeći korak bio je prepoznavanje entiteta i
ključnih pojmova, uspostavljanje relacija ka bazi znanja Vikipodaci
https://www.wikidata.org/ , kao i povezivanje sa ostalim bazama znanja putem realizovane
veze sa Vikipodacima, čime se omogućava brzo i efikasno lociranje, kategorizacija i
pružanje bogatijeg konteksta za značajne događaje, ličnosti i društvene pojave
zabeležene u starim novinama. Istovremeno, korisnici će imati više mogućnosti na
raspolaganju, a čitava kolekcija će imati povećanu vidljivost. Samim tim, biće povećana
i vidljivost srpske ćirilice, budući da su odabrane novine iz ćiriličkog korpusa.
Konkretno, u okviru projekta su obrađeni časopisi: Otadžbina
(https://pretraziva.rs/pregled/otadzbina), Zora (https://pretraziva.rs/pregled/zora), Žena
(https://pretraziva.rs/pregled/zena) i Delo (https://pretraziva.rs/pregled/delo), kako bi se
ilustrovao puni potencijal platforme.
Zbog kratkog roka za implementaciju projekta, određene sasvim tehničke aktivnosti su
otpočele ranije. Na primer, u okviru projekta TESLA – vektorizacija jezika: aplikacije
za srpski jezik, koji finansira Fond za nauku Republike Srbije, razvijaju se napredni
jezički resursi i modeli zasnovani na tehnikama mašinskog učenja za srpski jezik (iz
modela Word2Vec, FastText, BERT, GPT-2, XLMR, T5,…), čija je integracija omogućila
bolje prepoznavanje semantičkih veza između reči i preciznije izdvajanje ključnih
entiteta u novinskim tekstovima. Integracijom tih resursa sa Pretraživom i
platformom zasnovanom na alatu TEI Publisher koja je razvijena u ovom projektu, dobija se
jedinstvena prilika za unapređivanje procesa povezivanja arhivskih podataka, jer će
vektorske reprezentacije i modeli TESLA-e omogućiti dublju i detaljniju analizu
teksta, identifikovanje skrivenih odnosa i automatsko grupisanje srodnih pojmova. Na
taj način, olakšava se pronalaženje smislenih korelacija, koje su neophodne za
sveobuhvatno istraživanje kulturnog i istorijskog konteksta, uz značajno smanjenje
ručnog rada i unapređenje preciznosti u radu istraživača, bibliotekara i drugih
korisnika.
Glavni cilj projekta bio je razvoj alata za istraživanje digitalizovanih sadržaja
kulturne baštine u književnim novinama na srpskom jeziku, uz primenu savremenih
jezičkih tehnologija, uključujući prepoznavanje entiteta, ključnih pojmova, povezivanje
sa bazama znanja sa uspostavljanjem relacija. Platforma sa pratećim veb-servisima je
zamišljena da bude korisna za istraživače, istoričare, bibliotekare i druge
zainteresovane za istoriju, kulturu, jezik i jezičke tehnologije. Zahvaljujući
unapređenim funkcionalnostima, Platforma omogućava efikasno i brzo pronalaženje i
ekstrakciju informacija, kao i njihovu vizuelizaciju u vidu grafova znanja, karata,
mreža, vremenskih dijagrama i slično.
Osim izgradnje platforme, u sklopu projekta su obrađena četiri časopisa iz digitalne
kolekcije PRETRAŽIVA Univerzitetske biblioteke „Svetozar Marković“.
Istovremeno, povećana je vidljivost ćirilice u digitalnom okruženju.
Projekat je rađen u saradnji sa Društvom za jezičke resurse i tehnologije – JeRTeh.