II. TEI - Osnovne strukture, elementi in atributi

Konzorcij TEI je svoje delo oblikoval kot smernice, pravila in priporočila, ne pa kot standardi, ker je zaželjeno, da mora imeti vsak raziskovalec svobodo izražanja lastne teorije besedila s kodiranjem elementov, ki se mu zdijo pomembni v besedilu. Široka paleta možnih rešitev za kodiranje je prikazana v smernicah TEI, ki jih je zato treba obravnavati kot referenčni priročnik in ne kot vadnico.

Elementi v TEI spadajo v dve široki kategoriji,

  1. tisti, ki se uporabljajo za zajemanje metapodatkov o besedilu, ki se kodira (avtorstvo in odgovornost, bibliografski podatki, opis rokopisa, zgodovina revizij itd.)
  2. in tisti, ki se uporabljajo za kodiranje strukturnih značilnosti sam dokument, kot so razdelki, naslovi, odstavki, citati, označevanje itd.
Celoten dokument TEI je sestavljen iz enega samega elementa <TEI>, ki je sestavljen iz dveh glavnih komponent:
  • <teiHeader> - element, ki vsebuje vse metapodatke, ki opisujejo dokument in
  • <text> - element, ki vsebuje dejanski dokument.
Ta skupna struktura je obvezna za vse "standardne" dokumente TEI.
<TEI xmlns="http://www.tei-c.org/ns/1.0"> <!-- minimalna struktura TEI dokumenta -->  <teiHeader> <!-- -... -->  </teiHeader>  <text> <!-- ... -->  </text> </TEI>
"Glava" TEI <teiHeader> je obvezna in vsebuje opisne metapodatke o dokumentu. Vsebovati mora opis elektronske datoteke znotraj elementa <fileDesc>. V tem elementu so obvezni elementi <titleStmt>, za informacijo o naslovu, avtorju in drugih odgovornih za elektronski tekst, <publicationStmt>, za podrobnosti o publikaciji elektronskega besedila in <sourceDesc>, ki zabeleži bibliografske podrobnosti o viru elektronskega besedila (če ta obstaja). Vsi ti elementi vsebujejo še druge specifične elemente, ki so razloženi v naslednjem poglavju. Primer <teiHeader> z najosnovnejšemi elementi:
<TEI xmlns="http://www.tei-c.org/ns/1.0"> <!-- minimalna struktura teiHeader -->  <teiHeader>   <fileDesc>    <titleStmt>     <title>Osnove TEI</title>     <author>Mihael Ojsteršek</author>    </titleStmt>    <publicationStmt>     <p>Informacije o publikaciji</p>    </publicationStmt>    <sourceDesc>     <p>No source, born digital</p>    </sourceDesc>   </fileDesc>  </teiHeader> </TEI>

V TEI XML dokumentu je glavni del besedila običajno shranjen znotraj elementa <text>. V njem je označena vsebina izvornega besedila, ki je predmet analize ali objave in omogoča strukturo, ki omogoča ohranjanje zgodovinskih, literarnih ali drugih značilnosti besedila. Znotraj elementa <text> so lahko ugnezdeni številni drugi elementi, uporabljeni glede na želje označevalca oziroma za potrebe projekta. Kot že omenjeno vsebujejo smernice TEI več kot 500 elementov. Nekateri izmed osnovnih elementov za označevanje strukture besedila, specifičnih vsebin in značilnosti so :

  • <front> (front matter) - vsebuje uvodno vsebino npr. naslove, povzetke, naslovno stran, predgovore, posvetila...
  • <body> - glavni del besedila, kjer je tekst
  • <back> (back matter) - zadnji del besedila, kjer so ponavadi seznami literature ali priloge
  • <head> - naslov (sekcije, poglavja)
  • <div> (division) - razdelek, za delitev besedila v več delov (npr. poglavja)
  • <p> (paragraph) - označuje odstavek
  • <pb> (page break) - označuje konec strani v izvornem besedilu
  • <lb> (line break) - označuje konec vrstice
  • <hi> (highlight) - označuje poudarke
  • <l> (line) - označuje vrstico (npr. v poeziji)
  • <lg> (line group) - skupina vrstic, kitica
  • <list> - označuje seznam
  • <item> - označuje del seznama
  • <listBibl> (citation list) - vsebuje seznam bibliografskih citatov
  • <bibl> (bibliographic citation) - vsebuje strukturiran bibliografski citat
Element <text> mora vsebovati najman element <body>. Ta vsebuje glavni del izvornega besedila in druge označitve. Pred <body> elementom je pogosto element <front>. Ta element se uporablja za označevanje uvodnih informacij besedil, ki so ločena od glavnega besedila. Osnovni primeri vsebujejo informacije o dokumentu, kot so naslov, avtorji, datumi, predgovori, uvodi in druge uvodne vsebine. Najpogostejši elementi, ki jih najdemo v <front> so:
  • <titlePage> - naslovna stran
  • <docTitle> - naslov dokumenta
  • <titlePart> - vsebuje del naslova besedila, kot je prikazano na naslovni strani. Z atributom @type določimo vlogo elementa, ali je glavni naslov ali podnaslov.
  • <docAuthor> - vsebuje ime avtorja dokumenta, kot je navedeno na naslovni strani
  • <docImprint> - vsebuje navedbo impresuma (kraj in datum izida, ime založbe)
  • <docEdition> - vsebuje podatek o izdaji
  • <docDate> - vsebuje podatek o datumu izdaje
<front>  <titlePage>   <docTitle>    <titlePart type="mainxml:lang="en">Elementary and middle school textbooks between 1774 and 1918:</titlePart>    <titlePart type="subxml:lang="en">An annotated bibliography with supporting study</titlePart>   </docTitle>   <docAuthor>    <forename>Neja</forename>    <surname>Blaj Hribar</surname>   </docAuthor>   <graphic url="naslovnica.jpg"/>   <docImprint>    <publisher>Institute of Contemporary History</publisher>    <pubPlace>Ljubljana</pubPlace>    <docDate>2023</docDate>   </docImprint>  </titlePage> </front>
Vse gradivo, ki sledi glavnemu besedilu izvornega teksta, je lahko združeno v elementu <back>. To gradivo so lahko priloge, kazala, opombe, bibliografije, in so lahko znotraj posameznih <div> elementov, ki jih ločimo z atributom @type z vrednostmi
  • appendix - za priloge
  • glossary - seznam izrazov
  • notes - za zbrane opombe
  • bibliogr - za seznam bibliografije
  • index - kakršna koli oblika indeksa
  • colophon - kolofon
<back>  <div type="appendixxml:id="acknw">   <head>Acknowledgements</head>   <p>The work described in this paper was funded by the Slovenian Research Agency research programme P6-0436: Digital Humanities: resources, tools,      and methods (2022- 2027)</p>  </div>  <div type="bibliogrxml:id="bibl">   <head>References</head>   <listBibl>    <bibl>Abercrombie, G., &amp; Batista-Navarro, R. (2020). Sentiment and position-taking analysis of parliamentary debates...</bibl>    <bibl>Albalawi, R., Yeap, T. H., &amp; Benyoucef, M. (2020). Using topic modeling methods for short-text data...</bibl>   </listBibl>  </div> </back>

TEI XML elementi jo prav tako lahko atribute, ki podajajo dodatne informacije elemetom za opis njihovih lastnosti. V TEI XML imajo atributi pogosto specifičen namen, uporabljeni so kot na primer za označevanje jezika besedila, določanje vrste vsebine ali natančno določanje položaja v dokumentu. Nekateri pogosti atributi v TEI XML so:

  • @xml:id - za dodajanje unikatnega identifikatorja elementu
  • @n (label) - elementu doda oznako (npr. številko) - element ni potrebno, da je edinstven znotraj dokumenta.
  • @xml:lang - za informacijo o uporabljenem jeziku
  • @type - za informacijo o vrsti besedila
  • @rend (rendition) - za informacije o obliki besedila
  • @ana (analysis) - povezovanje posebnih analiz ali interpretacij z ustreznimi deli besedila
Primer celotne strukture <text> elementa:
<text>  <front>   <titlePage>    <docTitle>     <titlePart type="mainxml:lang="en">Elementary and middle school textbooks between 1774 and 1918:</titlePart>     <titlePart type="subxml:lang="en">An annotated bibliography with supporting study</titlePart>    </docTitle>    <docAuthor>     <forename>Neja</forename>     <surname>Blaj Hribar</surname>    </docAuthor>    <graphic url="naslovnica.jpg"/>    <docImprint>     <publisher>Institute of Contemporary History</publisher>     <pubPlace>Ljubljana</pubPlace>     <docDate>2023</docDate>    </docImprint>   </titlePage>  </front>  <body>   <div>    <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit. Minima asperiores magni doloremque vel ab odio quidem eum cum natus fugit delectus        nobis nam modi placeat porro quisquam iste repudiandae. Facere. </p>    <p>Dolorem quasi nobis repellendus nihil molestiae vitae necessitatibus suscipit culpa totam magni. Natus sapiente dolores! Laborum facere ex        reprehenderit excepturi id voluptate laudantium pariatur voluptatibus aliquam delectus! Qui eveniet obcaecati? </p>    <p>Laborum nostrum omnis dignissimos ipsam fugiat eaque saepe similique laboriosam labore sit. Dolore tenetur illum praesentium laborum        quibusdam culpa omnis odio obcaecati corrupti ullam odit eum numquam laudantium excepturi fugit. </p>    <p>Ipsa quaerat porro reprehenderit dignissimos modi ut perferendis dolorum eius. Numquam iusto maiores ipsam sequi excepturi unde odio neque id        aliquid dignissimos sapiente vel dicta quibusdam laudantium magnam quaerat itaque? </p>   </div>  </body>  <back>   <div type="appendix">    <head>Acknowledgements</head>    <p>The work described in this paper was funded by the Slovenian Research Agency research programme P6-0436: Digital Humanities: resources,        tools, and methods (2022- 2027)</p>   </div>   <div type="bibliogr">    <head>References</head>    <listBibl>     <bibl>Abercrombie, G., &amp; Batista-Navarro, R. (2020). Sentiment and position-taking analysis of parliamentary debates...</bibl>     <bibl>Albalawi, R., Yeap, T. H., &amp; Benyoucef, M. (2020). Using topic modeling methods for short-text data...</bibl>    </listBibl>   </div>  </back> </text>