[OC] Olivier Canteaut (École nationale des chartes) Validation scientifique
[VJ] Vincent Jolivet (École nationale des chartes) Editeur électronique
[FG] Frédéric Glorieux (École nationale des chartes) Assistance technique
Le Sanctoral est un ensemble de jours (dies) divisé en leçons (lectio).
Ces jours sont dans une hiérarchie de chapitres.
Pour le reste, les paragraphes ne demandent pas de structuration particulière
et se suffisent des schémas inclus.
[FG] Frédéric Glorieux (École nationale des chartes) conception et maintenance
[VJ] Vincent Jolivet (École nationale des chartes) conception et maintenance
[CD] Camille Desenclos (École nationale des chartes) notes d'apparat critique, indexation des entités nommées
[CH] Clément Hurel (École nationale des chartes) contributions
Ce schéma comporte des éléments génériques pour écrire du texte.
On y trouvera au moins le nécessaire pour générer un HTML acceptable pour l'écran.
Sont aussi définies des structures spécifiques à l'édition critique, avec leurs règles d'utilisation dans le contexte de ce site.
Il est conventionnel de diviser un schéma rédactionnel en trois niveaux : texte (balises en cours de ligne),
blocs (boîtes de texte), sections (conteneur de blocs). L'exposition des éléments
cherchera globalement à suivre cet ordre, sans cependant en adopter les divisions, qui seraient très déséquilibrées.
Ce document veille aussi à détailler les pratiques d'édition électronique pour ce site.
Balises vides : texte simple avec bornes pouvant se trouver à tout endroit, comme les sauts, ou les notes.
Appareillage critique : le balisage dédié aux corrections, ajouts, attributions... avec prise en charge spéciale (ex : génération de notes).
Indexation : valeurs susceptibles d'être rassemblées
dans un index aidant la navigation (auteurs, personnes, lieux...).
Fonctions : fonction sémantique (susceptible de présentation typographique adaptées).
Typographie : typographie simple, sans fonction assumée, rendues sans interprétation (HTML).
p.content
Macro décrivant le contenu de type paragraphe (tous les éléments de niveau ligne).
Cette section réunit différentes balises susceptibles d'indexation. Elles permettent d'étiqueter les noms
de personnes, de lieux, ou les termes sujet... Ces balises sont particulièrement nombreuses dans les corpus
de chartes, où l'on trouve en moyenne quatre à cinq noms par phrase.
La juste segmentation des noms a tout d'abord un objectif linguistique, elle permet d'isoler
les mots de la langue, pour par exemple mieux assurer une lemmatisation. Il s'agit ensuite
d'avancer vers la constitution d'index automatique fiable (ce qui ne dispense pas d'un travail érudit
de prosopographie, pour par exemple rassembler les différents noms d'une même personne sous une même
clés). On trouvera ici des règles et des exemples mis au point sur des corpus de chartes, elles
peuvent valoir pour tous textes.
Remarque, on déconseillera de baliser les saints comme des personnes lorsqu'ils apparaissent comme des fêtes repères dans le calendrier.
indexation
Les balises indexables regroupent les mots susceptibles de mériter un
index.
Les noms de personnes se présentent sous des formes très diverses: anthroponyme simple ("Gofredus"), anthroponyme complexe ("Gofredus de Sancto Martino"), titulature officielle ("Gofridus, dominus de Sancto Martino"), identification par filiation ("Gofredus, filius Petri"). Le traitement de ces noms doit s'adapter à cette mutliplicité. Le nom principal, destiné à devenir une entrée lors de la constitution automatique de l'index, doit être encodé à l'aide de <persName>. Cependant dans le cas d'expressions complexes telles les titulatures, les autres composantes du nom doivent être encodées en fonction de leur nature, par exemple: <placeName> pour les noms de domaines et l'ensemble de l'expression doit être insérée à l'intérieur d'un élément <rs>, auquel on a ajouté un attribut @type de valeur "person", afin de notifier que l'expression désigne une seule personne et non des personnes ou lieux distincts et ainsi pouvoir identifier les divers acteurs intervenant dans les actes.
Les anthroponymes complexes nécessitent une attention particulière. Pour "Gofredus de Sancto Martino', il faut se demander si "Sancto-Martino" renvoie réellement à un lieu ou s'il n'a plus qu'une valeur anthroponymique, sans rapport identifiable avec une réalité géographique. Pour l'époque moderne, il n'y a pas d'hésitations à avoir, surtout pour des expressions telles que "Mlle de Guise": "Guise" est un nom de famille et n'a plus de valeur géographique; si la personne a lien avec la ville de Guise cela sera indiqué dans sa titulature. Pour le Moyen Age, il est impossible de dire si "Gofredus de Sancto Martino" est Gofredus qui habite à Saint-Martin, Gofredus venu de Saint-Martin, seigneur de Saint-Martin, ou Gofredus appartenant à la famille du nom de Saint-Martin. Pour les XIe et XIIe, il est plus prudent d'encoder "Sancto Martino" à l'aide d'un élément <placeName>, quand bien même cela conduit à la constitution d'expressions d'encodage peu satisfaisantes.
Idéalement l'anthroponyme complexe, s'il fait référence à un nom de lieu devrait donc être encodé à l'aide d'un élément <placeName> au sein même de l'élément <persName>. Cependant ce traitement peut s'avérer long dans le cas de corpus. Dans ce cas, on limitera l'utilisation de <placeName> aux noms de terre.
Est identifié comme <persName> tout anthroponyme isolé, abrévié ou non ("G.", "Gofredus") et tout anthroponyme complexe, formé d'un prénom et d'un nom ("Gofredus de Sancto Martino") et à l'intérieur duquel ne s'intercale aucun mot de langue, hormis dans le cas des surnoms qui doivent être insérés dans le même élément <persName> ("Robertus dictus Legrand").
Nom de personne
Tout nom de lieu clairement identifiable dans l'index doit être encodé à l'aide de l'élément <placeName. Un nom de lieu est un ensemble continu à l'intérieur duquel ne s'intercale aucun mot de langue. Dans des expressions telles que "ecclesie Beate Marie", soit lorsque le mot de langue n'apporte pas de précision supplémentaire ("ecclesie" sert uniquement à qualifier "Beate Marie"), seul "Beate Marie" doit être encodé à l'aide de l'élément <placeName>. Dans le cas de corpus de taille importante, il n'est pas recommandé d'encoder plus précisément les noms de lieux à l'aide d'un élément <rs type="place">, quand bien même "Pontisare" ne désigne pas la même chose que "pontum Pontisare". Au contraire, ce type d'encodage (à l'aide de <rs>) doit être utilisé pour les noms de rue.
Référence à une entité nommée complexe, pouvant désigner une personne ou un lieu. <rs> permet de réunir des noms et des mots de la langue devant être identifiés comme une seule entité nommée et devant apparaître comme tel dans l'index. De ce fait il peut contenir plusieurs noms de lieux ou de personnes. L'unité sémantique prévaut sur l'insertion de conjonctions ("autem") ou d'expressions ("Dei gratia") qui ne doivent pas faire oublier qu'il s'agit d'une seule et même personne; ces conjonctions doivent donc être insérées, s'il est impossible de faire autrement, à l'intérieur de l'élément <rs>.
Nom, lorsqu'il n'est pas possible de déterminer s'il s'agit d'une personne ou d'un lieu
(par exemple après balisage automatique des mots en majuscule).
Selon la documentation TEI peut entre
autres signifier : soCalled, foreign, distinct, term, mentioned... htm:q. Un texte cité
peut contenir une citation.
Les balises fonctionnelles, à privilégier le plus possible relativement
aux balises typographiques, mais à ne pas utiliser si le besoin est juste
typographique.
Mentions, apparaissant généralement en italique, parfois en petites capitales (ex : inscriptions). Sur un acte médiéval, il arrive qu'une mention moderne fasse elle-même mention d'un texte plus ancien.
Mot, expression, voire proposition dans une langue différente du contexte, généralement rendu en italique. Une classe CSS est inscrite dans le rendu html, afin de pouvoir ajuster le cas échéant une police de caractères (ex : grec accentué). <dfn class="foreign @xml:lang">. On évitera d'indiquer ainsi les lieux ou personnes en langue étrangère (par exemple une nom de personne en ancien français dans une charte latine), préférer un attribut de langue sur la balise du terme indexé. Toutefois, certains textes multilingues peuvent contenir des fragments contenant du texte riche.
Les codes de langues ont surtout un usage informatique, afin d'appliquer les meilleurs filtres de traitement. Ainsi par exemple, contrairement à la norme anglophone de la bibliothèque du congrès, aucune distinction n'est faîte entre ancien et moyen français.
Nombre. Le balisage des nombres est notamment utile pour les chiffres romains, afin
qu'ils ne soient pas confondus avec des mots. Ils peuvent être mis en petites
capitales.
La forme étendue de l'abréviation sera contenue dans un attribut
optionnel @rend. (La proposition TEI d'un élément <expan> sera un problème
pour les exploitations ultérieures car elle ajoute un noeud texte qui n'est pas dans le
document encodé)
typo
Typographie de base
Mise en forme typographique de caractères,
au contenu volontairement restreint pour encourager les balises fonctionnelles.
Pagination ou foliotation, pour édition électronique d'imprimé ou de manuscrit. Le numéro est obligatoire, sauf dans le cas de pages ou folios manquants, en ce cas une explication est nécessaire.
Type de liste, indiqué par un caractère. Le nombre de valeurs est susceptible de s'étendre.
En cas d'encodage de texte existant, il peut être plus commode de reporter les numérotations difficiles à générer
en attribut de l'item (@n).
Liste pour encodage d'index imprimé. Le type 'index' permet de munir
la liste d'une barre d'exploration alphabétique. Une liste d'identifiants prévue à l'avance
permet de raffiner les comportements.
Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque personne mentionnée dans l'index (nom complet, dates et faits marquants de la biographie).
Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque lieu mentionné dans l'index (nom et localisation).
Attributs obligatoires d'un élément à “spliter” (générer un fichier HTML).
Le contenu de l'attribut @xml:id d'une division sert de nom de fichier.
La granularité des divisions varie selon les documents.
Afin de pouvoir factoriser un code de fractionnement, les divisions seront marquées par l'attribut @subtype="item".
Sectionnement du texte. Le modèle propose une alternative, soit une section
contient des blocs, soit une section ne contient que des sections (avec possibilité
d'introduction et de conclusion).
Il s'agit d'éviter le mélange entre blocs avec textes et sections,
afin par exemple de faciliter le traitement des notes
(affichées en bas de section).
Ce modèle de contenu sert d'entête de fichier
(à ne pas confondre avec le teiHeader qui porte les métadonnées).
Page de titre, préface, introductions, et autres paratextes d'une édition.
L'apparat critique est constitué de manière traditionnelle : d'un “lemme” <lem>, la leçon retenue pour l'édition du texte, ainsi que d'une ou plusieurs variantes <rdg> (reading) considérées comme fautives et rejetées en note. L'introduction de l'édition doit préciser si le texte édité est composite, ou bien sélectionner un témoin particulier comme base pour l'édition.
Pour la transformation du document balisé, le texte à afficher de manière privilégiée doit être contenu dans l'élément <lem>; lorsque ce texte est issu d'une correction de l'éditeur et non d'un témoin, l'élément <lem> doit être lié à l'éditeur responsable de ladite correction par l'attribut @resp qui pointe vers le nom de l'éditeur, identifié par un code (dans l'attribut @xml:id) dans l'en-tête <teiHeader>. Chaque variante, les <rdg> (parfois le <lem>, en cas de reconstruction du texte), doit être liée au témoin qu'elle cite, par l'attribut @wit qui pointe vers un témoin <witness>, identifié par un code (dans l'attribut @xml:id).
Permet de générer une note comme :
(a)E : « qui se feront »
Ajouts
Pour indiquer que le texte édité ne comporte pas certains mots trouvés dans d'autres témoins :
(a)E, ajout : « texte ajouté par un témoin »
(d)A2, A3, ajout : « profanes »
Omissions
Pour indiquer que le texte édité comporte des mots que l'on ne retrouve pas dans d'autres témoins :
(i)E, omision : « texte qui ne se retrouve pas dans tous les témoins »
Notes libres d'apparat critique
L'éditeur a aussi la possibilité d'inscrire une note libre d'apparat critique libre, sans format imposé ni renvoi structuré aux témoins :
Présentation tabulaire de versions alternatives d'un même texte. Cette présentation ne doit être utilisée que si les variantes sont de taille importante et qu'aucune ne peut être considérée comme fautive par rapport à l'autre. De ce fait l'élément <lem> n'est pas utilisé dans ce contexte, les deux variantes étant posées sur le même plan au sein d'éléments <rdg>.
Mot ou passage jugé fautif (erreur de transcription du copiste, lettres oubliées, etc.) et corrigé par l'éditeur afin de rendre le texte compréhensible. <choice> contient nécessairement un élément <sic> avec le texte fautif et un élément <corr> avec la correction faite soit ex ingenio soit à partir d'un autre témoin.
<choice> ne doit pas être confondu avec <app>: le premier est utilisé lorsqu'il y a intervention de l'éditeur, que le texte de base est jugé fautif et ne peut être compris sans sa correction, le second lorsqu'il s'agit de présenter de simples variantes changeant certes le sens mais fournissant dans tous les cas un texte compréhensible.
Texte corrigé par l'éditeur. Dans le cas d'une correction ex ingenio, il conviendra insérer l'identifiant du correcteur dans un attribut @resp; dans celui d'une correction à partir d'un autre témoin, l'identifiant dudit témoin devra être inséré dans l'attribut @source. Par ailleurs un attribut @cert peut être utilisé pour préciser le degré de certitude associé à cette correction (low, medium, high).
Passage du texte pouvant être ni retranscrit ni restitué, le plus souvent en raison d'un dommage matériel (trou, tâche d'encre, ...). De fait l'élément <gap> est un élément vide auquel des informations complémentaires peuvent être ajoutées en attribut sur la cause de ce trou (@reason) ou sur sa dimension (@extent).
<gap> ne doit pas être confondu ni combiné avec <supplied>: le premier est utilisé lorsqu'aucun mot ne peut être restitué, tandis que le second sert à encoder un passage ayant pu être restitué par l'éditeur (à l'aide du contexte ou d'un autre témoin).
Texte restitué par l'éditeur à la place d'un passage illisible souvent suite à des dommages matériels ou de pertes dans le document original. Si le texte a été restitué à partir d'un autre témoin, il est recommandé de le citer en insérant au sein d'un attribut @source le code du témoin concerné.
Espace laissé blanc par le scribe ou auteur et jugé significatif par l'éditeur. Ces blancs sont traditionnellement représentés à l'aide d'astérisques dans les éditions critiques papier. Des informations sur la taille de cet espace peuvent être ajoutées à l'aide des attributs @quantity et @unit.
Les additions et corrections marginales ou interlinéaires seront intégrées à leur place dans l'édition, mais leur présence et leur position seront signalées en note, ainsi que, éventuellement, les mots raturés, dans la mesure où ils sont lisibles.
Cette section traite uniquement du texte ajouté ou supprimé par l'auteur du texte ou par un relecteur/correcteur postérieur et contenu dans le témoin de base, en aucun cas des corrections effectuées par l'éditeur ou contenues dans d'autres témoins.
Texte supprimé. Des informations sur la manière dont le texte a été supprimé (biffé, partiellement effacé, ...) peuvent être insérées dans l'attribut @rend.