Leto 2021

V letu 2021 smo v okviru infrastrukturnega programa delo nekoliko prestrukturirali oziroma smo ga sekcionirali v dvanajst centrov.

V centru za digitalizacijo smo skenirali 80.000 strani in posneli 27 avdio-video montaž v dolžini štirinajst ur dogodkov s področja humanistike. Digitalna knjižnica portala Zgodovina Slovenije – SIstory je tako konec leta 2021 štela več kot 45.000 prosto dostopnih digitalnih objektov znanstvene in kulturne dediščine ter rezultatov raziskav slovenskega zgodovinopisja.

Naloge centra za nestrukturirane podatke so zbiranje, urejanje in obdelava besedilnih, slikovnih, avdio in video zbirk nestrukturiranih podatkov. To so lahko manjše (npr. dobrih 100 slik iz projekta Posmrtne maske, ki smo ga izpeljali v sodelovanju z Društvom za domače raziskave) ali večje zbirke slik (na primer 350.000 slik historičnih popisov prebivalstva). Pogoste pa so tudi manjše (npr. Zbirka 42 tiskovin o koroškem plebiscitu) ali večje zbirke besedil (npr. zbirka Poročevalca državnega zbora, 1668 digitalnih objektov, 142.468 strani). Poleg zbiranja gradiv je center za nestrukturirane podatke odgovoren še za:

  • datotečno urejanje gradiva in
  • dodajanje opisnih in tehničnih metapodatkov.

Ugotavljamo, da so zbirke nestrukturiranih podatkov najbolj pogosti tipi zbirk, ki nastajajo v okviru dejavnosti infrastrukturnega programa. Večinoma so dostopne prek portala Zgodovina Slovenije – SIstory; ta je leta 2021 vseboval 35 zbirk arhivskih in tiskanih virov, literature in dogodkov.

Center za delno strukturirane podatke je bil ustanovljen za zbiranje, urejanje, analizo in kodiranje delno strukturiranih podatkov, predvsem v formatu XML in v skladu s smernicami mednarodnega konzorcija Text Encoding Initiative (TEI). V sodelovanju z raziskovalci s področja digitalne humanistike center izvaja predvsem bolj ali manj kompleksna kodiranja strukture in pomena besedil. V okviru infrastrukturnega programa bomo tudi v prihodnosti nadaljevali s (pogosto polavtomatskim) kodiranjem sledečih zbirk podatkov in znanstvenih publikacij:

  • Slovenski parlamentarni korpus: zadnja različica korpusa siParl 2.0 je leta 2021 zajemala parlamentarne razprave iz obdobja 1990–2018, 11.967 besedil in skoraj 240 milijonov besed. V okviru projekta Razvoj slovenščine v digitalnem okolju (RSDO) bomo zajeli še starejše zapisnike (do leta 1947), načrtujemo pa tudi kodiranje zapisnikov parlamentarnih sej izpred prve in druge svetovne vojne.
  • Politično-strankarsko življenje na Slovenskem: programi političnih strank in organizacij.
  • Slovenska pravna besedila SI-IUS (v sodelovanju s Pravno fakulteto Univerze v Ljubljani, Institutom Jožefa Stefana in ZRC SAZU).
  • Zbirke znanstvenih besedil: znanstvena revija Prispevki za novejšo zgodovino (od leta 2014 do danes) in monografije Založbe INZ (osem publikacij).
  • Podjetja v Jugoslaviji pred drugo svetovno vojno.
  • Krajevni repertoriji (1817–1939): krajevna imena na Slovenskem, geografski in statistični podatki.
  • Judje na Slovenskem.

Omogočanje (prostega) dostopa do podatkov iz teh znanstvenih zbirk se lahko izvaja prek repozitorijev GitHub in GitLab, Centra za digitalne izdaje in repozitorija CLARIN.SI https://www.clarin.si/repository/xmlui/.

Člani centra za strukturirane podatke so odgovorni za zbiranje, urejanje, analizo in vnašanje strukturiranih podatkov v relacijske baze podatkov. V okviru tega pa so podpirali in aktivno sodelovali pri razvoju naslednjih večjih zbirk:

  • Historični popisi prebivalstva Slovenije (1830–1935) https://www.sistory.si/publikacije/?menuBottom=8, https://www.sistory.si/popis: konec leta 2021 je bilo v orodju za transkribiranje historičnih demografskih podatkov vnesenih 22 popisov prebivalstva, večinoma iz Ljubljane, podatki so bili transkribirani za več kot 265.000 oseb.
  • Vojaške žrtve prve svetovne vojne na Slovenskem https://zv1.sistory.si: do konca leta 2021 je bilo vnesenih podatkov za 26.957 oseb.
  • Smrtne žrtve med prebivalstvom na območju Republike Slovenije in neposredno po njej https://www.sistory.si/zrtve: konec leta 2021 so bili v bazi podatki za 99.911 oseb.

Podatki iz vseh teh relacijskih baz raziskovalnih podatkov so prosto dostopni prek spletnih aplikacij, ki jih razvijajo v sodelovanju z DARIAH-SI.