Balisage général du texte

Ce schéma comporte des éléments génériques pour écrire du texte. On y trouvera au moins le nécessaire pour générer un HTML acceptable pour l'écran. Sont aussi définies des structures spécifiques à l'édition critique, avec leurs règles d'utilisation dans le contexte de ce site. Il est conventionnel de diviser un schéma rédactionnel en trois niveaux : texte (balises en cours de ligne), blocs (boîtes de texte), sections (conteneur de blocs). L'exposition des éléments cherchera globalement à suivre cet ordre, sans cependant en adopter les divisions, qui seraient très déséquilibrées. Ce document veille aussi à détailler les pratiques d'édition électronique pour ce site.

Macro décrivant le contenu de type paragraphe (tous les éléments de niveau ligne).

Balises d'indexation

Cette section réunit différentes balises susceptibles d'indexation. Elles permettent d'étiqueter les noms de personnes, de lieux, ou les termes sujet... Ces balises sont particulièrement nombreuses dans les corpus de chartes, où l'on trouve en moyenne quatre à cinq noms par phrase. La juste segmentation des noms a tout d'abord un objectif linguistique, elle permet d'isoler les mots de la langue, pour par exemple mieux assurer une lemmatisation. Il s'agit ensuite d'avancer vers la constitution d'index automatique fiable (ce qui ne dispense pas d'un travail érudit de prosopographie, pour par exemple rassembler les différents noms d'une même personne sous une même clés). On trouvera ici des règles et des exemples mis au point sur des corpus de chartes, elles peuvent valoir pour tous textes.

Remarque, on déconseillera de baliser les saints comme des personnes lorsqu'ils apparaissent comme des fêtes repères dans le calendrier.

Les balises indexables regroupent les mots susceptibles de mériter un index.

Noms de personnes

Les noms de personnes se présentent sous des formes très diverses: anthroponyme simple ("Gofredus"), anthroponyme complexe ("Gofredus de Sancto Martino"), titulature officielle ("Gofridus, dominus de Sancto Martino"), identification par filiation ("Gofredus, filius Petri"). Le traitement de ces noms doit s'adapter à cette mutliplicité. Le nom principal, destiné à devenir une entrée lors de la constitution automatique de l'index, doit être encodé à l'aide de <persName>. Cependant dans le cas d'expressions complexes telles les titulatures, les autres composantes du nom doivent être encodées en fonction de leur nature, par exemple: <placeName> pour les noms de domaines et l'ensemble de l'expression doit être insérée à l'intérieur d'un élément <rs>, auquel on a ajouté un attribut @type de valeur "person", afin de notifier que l'expression désigne une seule personne et non des personnes ou lieux distincts et ainsi pouvoir identifier les divers acteurs intervenant dans les actes.

Symon, comes Ebroicarum et dominus Montis Fortis Radulfus filius Guilleulmi

Les anthroponymes complexes nécessitent une attention particulière. Pour "Gofredus de Sancto Martino', il faut se demander si "Sancto-Martino" renvoie réellement à un lieu ou s'il n'a plus qu'une valeur anthroponymique, sans rapport identifiable avec une réalité géographique. Pour l'époque moderne, il n'y a pas d'hésitations à avoir, surtout pour des expressions telles que "Mlle de Guise": "Guise" est un nom de famille et n'a plus de valeur géographique; si la personne a lien avec la ville de Guise cela sera indiqué dans sa titulature. Pour le Moyen Age, il est impossible de dire si "Gofredus de Sancto Martino" est Gofredus qui habite à Saint-Martin, Gofredus venu de Saint-Martin, seigneur de Saint-Martin, ou Gofredus appartenant à la famille du nom de Saint-Martin. Pour les XIe et XIIe, il est plus prudent d'encoder "Sancto Martino" à l'aide d'un élément <placeName>, quand bien même cela conduit à la constitution d'expressions d'encodage peu satisfaisantes.

monseigneur de Saint-Martin

Idéalement l'anthroponyme complexe, s'il fait référence à un nom de lieu devrait donc être encodé à l'aide d'un élément <placeName> au sein même de l'élément <persName>. Cependant ce traitement peut s'avérer long dans le cas de corpus. Dans ce cas, on limitera l'utilisation de <placeName> aux noms de terre.

Est identifié comme <persName> tout anthroponyme isolé, abrévié ou non ("G.", "Gofredus") et tout anthroponyme complexe, formé d'un prénom et d'un nom ("Gofredus de Sancto Martino") et à l'intérieur duquel ne s'intercale aucun mot de langue, hormis dans le cas des surnoms qui doivent être insérés dans le même élément <persName> ("Robertus dictus Legrand"). Nom de personne author Nom de famille, souvent en petites capitales. Nom additionnel, par exemple surnom. Prénom. Nom de collectivité ordre

Noms de lieux

Tout nom de lieu clairement identifiable dans l'index doit être encodé à l'aide de l'élément <placeName. Un nom de lieu est un ensemble continu à l'intérieur duquel ne s'intercale aucun mot de langue. Dans des expressions telles que "ecclesie Beate Marie", soit lorsque le mot de langue n'apporte pas de précision supplémentaire ("ecclesie" sert uniquement à qualifier "Beate Marie"), seul "Beate Marie" doit être encodé à l'aide de l'élément <placeName>. Dans le cas de corpus de taille importante, il n'est pas recommandé d'encoder plus précisément les noms de lieux à l'aide d'un élément <rs type="place">, quand bien même "Pontisare" ne désigne pas la même chose que "pontum Pontisare". Au contraire, ce type d'encodage (à l'aide de <rs>) doit être utilisé pour les noms de rue.

rue de Malessis
Est identifié comme <placeName> tout nom de lieu à l'intérieur duquel ne s'insère aucun mot de langue ("jardinum", "ecclesie"...).Nom de lieu Référence à une entité nommée complexe, pouvant désigner une personne ou un lieu. <rs> permet de réunir des noms et des mots de la langue devant être identifiés comme une seule entité nommée et devant apparaître comme tel dans l'index. De ce fait il peut contenir plusieurs noms de lieux ou de personnes. L'unité sémantique prévaut sur l'insertion de conjonctions ("autem") ou d'expressions ("Dei gratia") qui ne doivent pas faire oublier qu'il s'agit d'une seule et même personne; ces conjonctions doivent donc être insérées, s'il est impossible de faire autrement, à l'intérieur de l'élément <rs>. person place Nom, lorsqu'il n'est pas possible de déterminer s'il s'agit d'une personne ou d'un lieu (par exemple après balisage automatique des mots en majuscule). Terme pouvant être sujet d'indexation. URI de référence pour une entité. Forme d'autorité du nom.

Bibliographie

TEI permet de structurer un enregistrement bibliographique

Éléments de type bibliographique pouvant être contenus dans un paragraphe. Référence bibliographique peu structurée. Utilisé comme clé de regroupement. Titre d'oeuvre. Certains titres peuvent contenir un titre (droit dans l'italique). Auteur, généralement dans une référence bibliographique, peut servir à un index des auteurs cités. Pagination précisant une référence bibliographique. Dépôt d'archive ; peut contenir le pays de l'institution de conservation inscrit dans l'élément country repository Cote d'archive idno Citation référencée. Le texte mêlé est autorisé. Type de citation, permet par exemple de hiérarchiser des niveaux de fidélité à la référence. Numérotation, peut être interprété comme une note de bas de page pour indiquer la référence. Citation (dans un cit) html:q Selon la documentation TEI peut entre autres signifier : soCalled, foreign, distinct, term, mentioned... htm:q. Un texte cité peut contenir une citation. i sc

Balisage fonctionnel

Les balises fonctionnelles, à privilégier le plus possible relativement aux balises typographiques, mais à ne pas utiliser si le besoin est juste typographique.
Segment arbitraire de texte, par exemple pour isoler une formule dans une entité nommée. Mentions, apparaissant généralement en italique, parfois en petites capitales (ex : inscriptions). Sur un acte médiéval, il arrive qu'une mention moderne fasse elle-même mention d'un texte plus ancien. Original existant jadis aux Archives de la paroisse Saint-Jacques-de-la-Boucherie, portant au dos « écrit plus récemment, mais d'un gothique ancien : Lettre de confirmation d'Agnès de Poissy, du don du chevet Saint-Jacques ». sc Mot, expression, voire proposition dans une langue différente du contexte, généralement rendu en italique. Une classe CSS est inscrite dans le rendu html, afin de pouvoir ajuster le cas échéant une police de caractères (ex : grec accentué). <dfn class="foreign @xml:lang">. On évitera d'indiquer ainsi les lieux ou personnes en langue étrangère (par exemple une nom de personne en ancien français dans une charte latine), préférer un attribut de langue sur la balise du terme indexé. Toutefois, certains textes multilingues peuvent contenir des fragments contenant du texte riche. Code de langue

Les codes de langues ont surtout un usage informatique, afin d'appliquer les meilleurs filtres de traitement. Ainsi par exemple, contrairement à la norme anglophone de la bibliothèque du congrès, aucune distinction n'est faîte entre ancien et moyen français.

fra lat fro grc pro bre xxx
Date balisée, par défaut, obliger à sa résolution selon la norme ISO. Une date peut contenir une note explicative. ([0-9]{4}(-[0-9]{2}(-[0-9]{2})?)?)? Nombre. Le balisage des nombres est notamment utile pour les chiffres romains, afin qu'ils ne soient pas confondus avec des mots. Ils peuvent être mis en petites capitales. Abréviations, contient les points qui ne servent pas à la ponctuation des phrases. (un frontière de phrase sera laissée à l'extérieur).Abrévation La forme étendue de l'abréviation sera contenue dans un attribut optionnel @rend. (La proposition TEI d'un élément <expan> sera un problème pour les exploitations ultérieures car elle ajoute un noeud texte qui n'est pas dans le document encodé)

Typographie de base

Mise en forme typographique de caractères, au contenu volontairement restreint pour encourager les balises fonctionnelles.
Contenu d'une balise typographique Mis en valeur, em i b Mise en valeur, ornementation Italique, italic i Petites capitales. smallcaps sc Gras. bold b Souligné underline u Gras italique (très déconseillé) italic bold ib Exposant. superscript sup sup sc Indice. subscript sub Lien simple. <htm:a href="ref">texte</a>

Bornes

Regroupement des balises qui peuvent se retrouver dans tous les éléments textuels.
Une note est généralement du texte mêlé (sans note), parfois plusieurs paragraphes.
<htm:span class="note">
Référence à une note.htm:span class="ref" note Marque une information graphique qui n'est pas encodée textuellement. Pagination ou foliotation, pour édition électronique d'imprimé ou de manuscrit. Le numéro est obligatoire, sauf dans le cas de pages ou folios manquants, en ce cas une explication est nécessaire. Le numéro de page est obligatoire. Commentaire explicatif s'il n'y a pas de Référence au témoin dont est issu le numéro de page ou de folio inséré dans l'attribut n. Conservation des sauts de colonne de l'édition imprimée, notamment pour lien à l'image de la colonne. Le numéro de colonne est obligatoire, par exemple pour la troisième colonne de la page 245 : 245c. Saut de ligne, ne pas en abuser, htm:br

Blocs

Blocs, les boîtes qui contiennent du texte (sans les titres). Paragraphe. Types de paragraphe center uppercase Description. note Étiquette. Titre générique. Tables simples (html:table). Titre de tableau obligatoire (html:caption). Sauts de pages ou colonnes ne coupant pas les lignes. data label data label

Listes

Des listes simples. Type de liste, indiqué par un caractère. Le nombre de valeurs est susceptible de s'étendre. En cas d'encodage de texte existant, il peut être plus commode de reporter les numérotations difficiles à générer en attribut de l'item (@n). - 1 I o index Liste de références bibliographiques. Liste pour encodage d'index imprimé. Le type 'index' permet de munir la liste d'une barre d'exploration alphabétique. Une liste d'identifiants prévue à l'avance permet de raffiner les comportements. index listName listPlace listPerson listTerm Liste pour encodage d'un glossaire. Un identifiant normalisé permet d'appuyer certaines transformations spécifiques. gloss gloss Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque personne mentionnée dans l'index (nom complet, dates et faits marquants de la biographie). Entrée d'index (personnes). Un identifiant permet de faire référence à cette courte notice biographique à n'importe quel endroit du texte. Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque lieu mentionné dans l'index (nom et localisation). Entrée d'index (lieu). Un identifiant permet de faire référence à cette courte notice à n'importe quel endroit du texte. departement arrondissement canton

Sections

Structuration d'un texte

Attributs obligatoires d'un élément à “spliter” (générer un fichier HTML). Le contenu de l'attribut @xml:id d'une division sert de nom de fichier. La granularité des divisions varie selon les documents. Afin de pouvoir factoriser un code de fractionnement, les divisions seront marquées par l'attribut @subtype="item". article split Sectionnement du texte. Le modèle propose une alternative, soit une section contient des blocs, soit une section ne contient que des sections (avec possibilité d'introduction et de conclusion). Il s'agit d'éviter le mélange entre blocs avec textes et sections, afin par exemple de faciliter le traitement des notes (affichées en bas de section). Mention de d'attribution Mention de date : enregistement structurable, formule balisable, ou suite de paragraphes. Cartouche d'entrée d'une division, par exemple pour indiquer l'auteur d'une préface, d'une introduction. Résumé. Distinction venue du théâtre, pertinente pour d'autres textes. Distinction venue du théâtre, pertinente pour d'autres textes. Conclusion d'une section. Conclusion d'une section. Ce modèle de contenu sert d'entête de fichier (à ne pas confondre avec le teiHeader qui porte les métadonnées). Page de titre, préface, introductions, et autres paratextes d'une édition. Éléments en fin de livre, comme index, sommaires, glossaires. notes index Page de titre. Ne mettre que l'essentiel des informations visible sur la couverture. Auteur d'un document. Une ligne de date avec optionnellement un lieu. Nécessaire à la validation du schéma