I. Uvod v označevanje besedil in smernice TEI

Smernice TEI za kodiranje in izmenjavo elektronskih besedil opredeljujejo in dokumentirajo označevalni jezik za predstavitev strukturnih, prevodnih in konceptualnih značilnosti besedil. Osredotočajo se (čeprav ne izključno) na kodiranje dokumentov v humanistiki in družboslovju ter še posebej na predstavitev primarnih virov za raziskovanje in analizo. Te smernice so izražene kot modularna, razširljiva shema XML, ki jo spremlja podrobna dokumentacija, in so objavljene pod odprtokodno licenco. Smernice vzdržuje in razvija konzorcij TEI

Kaj je XML - osnovne informacije

XML oziroma eXstensible Markup Language je razširljiv označevalni jezik, ki omogoča jasno strukturiranje in organizacijo informacij. Temelji na enostavni besedilni datoteki in ni zahteven glede porabe podatkov in je zato primeren za dolgoročno hrambo. Razvit je bil na osnovi SGMLja in je standard za zapis elektronskih dokumentov. XML dokument je besedilo zato ga lahko urejamo z navadnim besedilnim urejevalnikom. Uporablja se za semantično opisovanje podatkov. Združuje strojno obdelovanje in lahko berljivost ljudem. XML dokument ima drevesno strukturo/hierarhijo XML elementov. Elementi imajo začetno značko (tag), vsebino in končno značko:
<element>Vsebina</element>
Na začetku dokumenta je posebna procesna inštrukcija, ki določa začetek xml dokumenta: <?xml version="1.0" encoding="UTF-8"?> Vsak dokument ima začetni element (korenski element) :
<root>  <child>   <subchild>.....</subchild>  </child> </root>
Elemente lahko gnezdimo. To pomeni, da lahko elementi vsebujejo enega ali več drugih elementov. Pri tem pazimo na pravilno hierarhijo elementov (angleška poimenovanje “sibling”, “parent”, “ancestor” ali “descendant")
<div> <!-- parent -->  <p>Vsebina elementa</p> <!-- child -->  <p>Vsebina elementa</p> <!-- sibling --> </div>
Elementi lahko vključujejo besedilo in elemente skupaj:
<p>Ime mu je bilo <name>Janez</name> </p>
V XML dokumentu so dovoljeni tudi elementi brez vsebine. Ti imajo le začetno značko, ki se konča z /> in nima končne značke. Primer :
<graphic url="#TEI"/>
Podatke o elementu ali njegovi vsebini zapišemo v atributih, ki so v začetni znački. Število atributov ni omejeno, njihov vrstni red ni pomemben. V začetni znački ne sme biti več atributov z istim imenom. Zapišejo se kot na primer:
<element atribut="vrednost atributa">vsebina</element>
.

TEI smernice

V digitalni humanistiki je označevalni jezik XML priljubljen zaradi jasne strukture in organiziranja podatkov. Pri uporabi smernic Text Encoding Initiative (TEI) XML služi kot osnova za označevanje in dokumentiranje besedil z namenom njihove analize, hrambe in distribucije.

Smernice TEI lahko predstavljajo tako označevalni jezik in nabor oznak, ki ga je predlagal konzorcij TEI, kot na njegovo spletno ali tiskano dokumentacijo. Smernice TEI pogosto uporabljajo knjižnice, muzeji, založniki in posamezni raziskovalci za predstavitev besedil za spletne raziskave, poučevanje in ohranjanje. Ker je TEI izražen v eXtensible Markup Language (XML) in ker zagotavlja postopke in mehanizme za prilagajanje lastnim projektnim potrebam, smernice TEI opredeljujejo odprt standard, ki je na splošno uporaben za katero koli besedilo in namen.

Zadnja verzija TEI smernic se opira na XML in z njim povezana orodja. Tako kot drugi označevalni jeziki tudi TEI definira nabor značk elementov XML, ki se uporabljajo za kodiranje besedil, skupaj z atributi, ki se uporabljajo za modificiranje elementov. Ker skušajo smernice TEI zagotoviti okvir za kodiranje katere koli zvrsti besedila iz katerega koli obdobja v katerem koli jeziku, je celoten nabor oznak TEI izjemno velik, sestavljen iz skoraj 500 elementov. V praksi večina uporabnikov TEI redno uporablja veliko manjšo podmnožico polnega jezika.