[FG] Frédéric Glorieux (École nationale des chartes) conception et maintenance
[VJ] Vincent Jolivet (École nationale des chartes) conception et maintenance
[CD] Camille Desenclos (École nationale des chartes) notes d'apparat critique, indexation des entités nommées
[CH] Clément Hurel (École nationale des chartes) contributions
Ce schéma comporte des éléments génériques pour écrire du texte.
On y trouvera au moins le nécessaire pour générer un HTML acceptable pour l'écran.
Sont aussi définies des structures spécifiques à l'édition critique, avec leurs règles d'utilisation dans le contexte de ce site.
Il est conventionnel de diviser un schéma rédactionnel en trois niveaux : texte (balises en cours de ligne),
blocs (boîtes de texte), sections (conteneur de blocs). L'exposition des éléments
cherchera globalement à suivre cet ordre, sans cependant en adopter les divisions, qui seraient très déséquilibrées.
Ce document veille aussi à détailler les pratiques d'édition électronique pour ce site.
Balises vides : texte simple avec bornes pouvant se trouver à tout endroit, comme les sauts, ou les notes.
Appareillage critique : le balisage dédié aux corrections, ajouts, attributions... avec prise en charge spéciale (ex : génération de notes).
Indexation : valeurs susceptibles d'être rassemblées
dans un index aidant la navigation (auteurs, personnes, lieux...).
Fonctions : fonction sémantique (susceptible de présentation typographique adaptées).
Typographie : typographie simple, sans fonction assumée, rendues sans interprétation (HTML).
Macro décrivant le contenu de type paragraphe (tous les éléments de niveau ligne).
Balises d'indexation
Cette section réunit différentes balises susceptibles d'indexation. Elles permettent d'étiqueter les noms
de personnes, de lieux, ou les termes sujet... Ces balises sont particulièrement nombreuses dans les corpus
de chartes, où l'on trouve en moyenne quatre à cinq noms par phrase.
La juste segmentation des noms a tout d'abord un objectif linguistique, elle permet d'isoler
les mots de la langue, pour par exemple mieux assurer une lemmatisation. Il s'agit ensuite
d'avancer vers la constitution d'index automatique fiable (ce qui ne dispense pas d'un travail érudit
de prosopographie, pour par exemple rassembler les différents noms d'une même personne sous une même
clés). On trouvera ici des règles et des exemples mis au point sur des corpus de chartes, elles
peuvent valoir pour tous textes.
Remarque, on déconseillera de baliser les saints comme des personnes lorsqu'ils apparaissent comme des fêtes repères dans le calendrier.
Les balises indexables regroupent les mots susceptibles de mériter un
index.
Noms de personnes
Les noms de personnes se présentent sous des formes très diverses: anthroponyme simple ("Gofredus"), anthroponyme complexe ("Gofredus de Sancto Martino"), titulature officielle ("Gofridus, dominus de Sancto Martino"), identification par filiation ("Gofredus, filius Petri"). Le traitement de ces noms doit s'adapter à cette mutliplicité. Le nom principal, destiné à devenir une entrée lors de la constitution automatique de l'index, doit être encodé à l'aide de <persName>. Cependant dans le cas d'expressions complexes telles les titulatures, les autres composantes du nom doivent être encodées en fonction de leur nature, par exemple: <placeName> pour les noms de domaines et l'ensemble de l'expression doit être insérée à l'intérieur d'un élément <rs>, auquel on a ajouté un attribut @type de valeur "person", afin de notifier que l'expression désigne une seule personne et non des personnes ou lieux distincts et ainsi pouvoir identifier les divers acteurs intervenant dans les actes.
Symon, comes Ebroicarum et dominus Montis FortisRadulfus filius Guilleulmi
Les anthroponymes complexes nécessitent une attention particulière. Pour "Gofredus de Sancto Martino', il faut se demander si "Sancto-Martino" renvoie réellement à un lieu ou s'il n'a plus qu'une valeur anthroponymique, sans rapport identifiable avec une réalité géographique. Pour l'époque moderne, il n'y a pas d'hésitations à avoir, surtout pour des expressions telles que "Mlle de Guise": "Guise" est un nom de famille et n'a plus de valeur géographique; si la personne a lien avec la ville de Guise cela sera indiqué dans sa titulature. Pour le Moyen Age, il est impossible de dire si "Gofredus de Sancto Martino" est Gofredus qui habite à Saint-Martin, Gofredus venu de Saint-Martin, seigneur de Saint-Martin, ou Gofredus appartenant à la famille du nom de Saint-Martin. Pour les XIe et XIIe, il est plus prudent d'encoder "Sancto Martino" à l'aide d'un élément <placeName>, quand bien même cela conduit à la constitution d'expressions d'encodage peu satisfaisantes.
monseigneur de Saint-Martin
Idéalement l'anthroponyme complexe, s'il fait référence à un nom de lieu devrait donc être encodé à l'aide d'un élément <placeName> au sein même de l'élément <persName>. Cependant ce traitement peut s'avérer long dans le cas de corpus. Dans ce cas, on limitera l'utilisation de <placeName> aux noms de terre.
Est identifié comme <persName> tout anthroponyme isolé, abrévié ou non ("G.", "Gofredus") et tout anthroponyme complexe, formé d'un prénom et d'un nom ("Gofredus de Sancto Martino") et à l'intérieur duquel ne s'intercale aucun mot de langue, hormis dans le cas des surnoms qui doivent être insérés dans le même élément <persName> ("Robertus dictus Legrand").
Nom de personne authorNom de famille, souvent en petites capitales.Nom additionnel, par exemple surnom.Prénom.Nom de collectivitéordre
Noms de lieux
Tout nom de lieu clairement identifiable dans l'index doit être encodé à l'aide de l'élément <placeName. Un nom de lieu est un ensemble continu à l'intérieur duquel ne s'intercale aucun mot de langue. Dans des expressions telles que "ecclesie Beate Marie", soit lorsque le mot de langue n'apporte pas de précision supplémentaire ("ecclesie" sert uniquement à qualifier "Beate Marie"), seul "Beate Marie" doit être encodé à l'aide de l'élément <placeName>. Dans le cas de corpus de taille importante, il n'est pas recommandé d'encoder plus précisément les noms de lieux à l'aide d'un élément <rs type="place">, quand bien même "Pontisare" ne désigne pas la même chose que "pontum Pontisare". Au contraire, ce type d'encodage (à l'aide de <rs>) doit être utilisé pour les noms de rue.
rue de MalessisEst identifié comme <placeName> tout nom de lieu à l'intérieur duquel ne s'insère aucun mot de langue ("jardinum", "ecclesie"...).Nom de lieuRéférence à une entité nommée complexe, pouvant désigner une personne ou un lieu. <rs> permet de réunir des noms et des mots de la langue devant être identifiés comme une seule entité nommée et devant apparaître comme tel dans l'index. De ce fait il peut contenir plusieurs noms de lieux ou de personnes. L'unité sémantique prévaut sur l'insertion de conjonctions ("autem") ou d'expressions ("Dei gratia") qui ne doivent pas faire oublier qu'il s'agit d'une seule et même personne; ces conjonctions doivent donc être insérées, s'il est impossible de faire autrement, à l'intérieur de l'élément <rs>.personplaceNom, lorsqu'il n'est pas possible de déterminer s'il s'agit d'une personne ou d'un lieu
(par exemple après balisage automatique des mots en majuscule).Terme pouvant être sujet d'indexation.URI de référence pour une entité.Forme d'autorité du nom.
Bibliographie
TEI permet de structurer un enregistrement bibliographique
Éléments de type bibliographique pouvant être contenus dans un paragraphe.Référence bibliographique peu structurée.Utilisé comme clé de regroupement.Titre d'oeuvre. Certains titres peuvent contenir un titre (droit dans l'italique). Auteur, généralement dans une référence bibliographique, peut servir à un
index des auteurs cités.Pagination précisant une référence bibliographique.Dépôt d'archive ; peut contenir le pays de l'institution de conservation inscrit dans l'élément countryrepositoryCote d'archiveidnoCitation référencée. Le texte mêlé est autorisé.Type de citation, permet par exemple de hiérarchiser des niveaux de fidélité à la référence.Numérotation, peut être interprété comme une note de bas de page pour indiquer la référence.Citation (dans un cit) html:qSelon la documentation TEI peut entre
autres signifier : soCalled, foreign, distinct, term, mentioned... htm:q. Un texte cité
peut contenir une citation.isc
Balisage fonctionnel
Les balises fonctionnelles, à privilégier le plus possible relativement
aux balises typographiques, mais à ne pas utiliser si le besoin est juste
typographique.Segment arbitraire de texte, par exemple pour isoler une formule dans une entité nommée.Mentions, apparaissant généralement en italique, parfois en petites capitales (ex : inscriptions). Sur un acte médiéval, il arrive qu'une mention moderne fasse elle-même mention d'un texte plus ancien.
Original existant jadis aux Archives de la paroisse Saint-Jacques-de-la-Boucherie, portant au dos « écrit plus récemment, mais d'un gothique ancien : Lettre de confirmation d'Agnès de Poissy, du don du chevet Saint-Jacques ».scMot, expression, voire proposition dans une langue différente du contexte, généralement rendu en italique. Une classe CSS est inscrite dans le rendu html, afin de pouvoir ajuster le cas échéant une police de caractères (ex : grec accentué). <dfn class="foreign @xml:lang">. On évitera d'indiquer ainsi les lieux ou personnes en langue étrangère (par exemple une nom de personne en ancien français dans une charte latine), préférer un attribut de langue sur la balise du terme indexé. Toutefois, certains textes multilingues peuvent contenir des fragments contenant du texte riche.Code de langue
Les codes de langues ont surtout un usage informatique, afin d'appliquer les meilleurs filtres de traitement. Ainsi par exemple, contrairement à la norme anglophone de la bibliothèque du congrès, aucune distinction n'est faîte entre ancien et moyen français.
fralatfrogrcprobrexxxDate balisée, par défaut, obliger à sa résolution selon la norme ISO. Une date peut contenir une note explicative.
([0-9]{4}(-[0-9]{2}(-[0-9]{2})?)?)?
Nombre. Le balisage des nombres est notamment utile pour les chiffres romains, afin
qu'ils ne soient pas confondus avec des mots. Ils peuvent être mis en petites
capitales.Abréviations, contient les points qui ne servent pas à la ponctuation des phrases.
(un frontière de phrase sera laissée à l'extérieur).Abrévation La forme étendue de l'abréviation sera contenue dans un attribut
optionnel @rend. (La proposition TEI d'un élément <expan> sera un problème
pour les exploitations ultérieures car elle ajoute un noeud texte qui n'est pas dans le
document encodé)
Typographie de base
Mise en forme typographique de caractères,
au contenu volontairement restreint pour encourager les balises fonctionnelles.Contenu d'une balise typographiqueMis en valeur, emibMise en valeur, ornementationItalique, italiciPetites capitales. smallcapsscGras. boldbSouligné underlineuGras italique (très déconseillé) italic boldibExposant. superscriptsupsup scIndice. subscriptsubLien simple. <htm:a href="ref">texte</a>
Bornes
Regroupement des balises qui peuvent se retrouver dans tous les éléments textuels.Une note est généralement du texte mêlé (sans
note), parfois plusieurs paragraphes.
<htm:span class="note">
Référence à une note.htm:span class="ref" noteMarque une information graphique qui n'est pas encodée textuellement.Pagination ou foliotation, pour édition électronique d'imprimé ou de manuscrit. Le numéro est obligatoire, sauf dans le cas de pages ou folios manquants, en ce cas une explication est nécessaire.Le numéro de page est obligatoire.Commentaire explicatif s'il n'y a pas de Référence au témoin dont est issu le numéro de page ou de folio inséré dans l'attribut n.Conservation des sauts de colonne de l'édition imprimée, notamment pour
lien à l'image de la colonne.Le numéro de colonne est obligatoire, par exemple pour la troisième
colonne de la page 245 : 245c.Saut de ligne, ne pas en abuser, htm:br
Blocs
Blocs, les boîtes qui contiennent du texte (sans les titres).Paragraphe.Types de paragraphecenteruppercaseDescription.noteÉtiquette.Titre générique.Tables simples (html:table).
Titre de tableau obligatoire (html:caption).
Sauts de pages ou colonnes ne coupant pas les lignes.
datalabeldatalabel
Listes
Des listes simples.Type de liste, indiqué par un caractère. Le nombre de valeurs est susceptible de s'étendre.
En cas d'encodage de texte existant, il peut être plus commode de reporter les numérotations difficiles à générer
en attribut de l'item (@n).-1IoindexListe de références bibliographiques.Liste pour encodage d'index imprimé. Le type 'index' permet de munir
la liste d'une barre d'exploration alphabétique. Une liste d'identifiants prévue à l'avance
permet de raffiner les comportements.indexlistNamelistPlacelistPersonlistTermListe pour encodage d'un glossaire. Un identifiant normalisé permet d'appuyer
certaines transformations spécifiques.glossglossIndex des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque personne mentionnée dans l'index (nom complet, dates et faits marquants de la biographie).Entrée d'index (personnes). Un identifiant permet de faire référence à cette courte notice biographique à n'importe quel endroit du texte.Index des noms de personnes permettant, en sus des liens vers les diverses occurences du texte, une description structurée de chaque lieu mentionné dans l'index (nom et localisation).Entrée d'index (lieu). Un identifiant permet de faire référence à cette courte notice à n'importe quel endroit du texte.departementarrondissementcanton
Sections
Structuration d'un texte
Attributs obligatoires d'un élément à “spliter” (générer un fichier HTML).
Le contenu de l'attribut @xml:id d'une division sert de nom de fichier.
La granularité des divisions varie selon les documents.
Afin de pouvoir factoriser un code de fractionnement, les divisions seront marquées par l'attribut @subtype="item".
articlesplitSectionnement du texte. Le modèle propose une alternative, soit une section
contient des blocs, soit une section ne contient que des sections (avec possibilité
d'introduction et de conclusion).
Il s'agit d'éviter le mélange entre blocs avec textes et sections,
afin par exemple de faciliter le traitement des notes
(affichées en bas de section).Mention de d'attributionMention de date : enregistement structurable, formule balisable, ou suite de paragraphes.Cartouche d'entrée d'une division, par exemple pour indiquer l'auteur d'une préface, d'une introduction.Résumé.Distinction venue du théâtre, pertinente pour d'autres textes.Distinction venue du théâtre, pertinente pour d'autres textes.Conclusion d'une section.Conclusion d'une section.Ce modèle de contenu sert d'entête de fichier
(à ne pas confondre avec le teiHeader qui porte les métadonnées).
Page de titre, préface, introductions, et autres paratextes d'une édition.Éléments en fin de livre, comme index, sommaires, glossaires.notesindexPage de titre. Ne mettre que l'essentiel des informations visible sur la couverture.
Auteur d'un document.Une ligne de date avec optionnellement un lieu.Nécessaire à la validation du schéma