Compart - Gestion documentaire et output management

Architecture et technologie

Convertir des lots de documents Batch avec très forte volumétrie et des flux de données AFP en PDF/UA

Compart |

Description du processus de production automatisé

Quiconque souhaite mettre à disposition des documents d'archives est confronté au défi de convertir par lots des millions de documents et de flux de données en PDF/UA. Compart propose une solution qui automatise ce processus, quels que soient l’antériorité et le format des documents présents dans les archives.

Dans le détail, cela se passe comme suit :

1. Classer les documents

Les entreprises ayant un volume important de communication avec leurs clients, comme les assurances, les banques ou les entreprises de services publics, ont une chose en commun. Une facture, un relevé de compte ou une police d'assurance suivent généralement une structure fixe en termes de contenu et de graphisme. Sur la base de ce principe, les documents peuvent être classifiés et un ensemble de règles peut être élaboré pour chaque classe de documents.

2. Créer un ensemble de règles et les enregistrer dans des templates

À l'aide d'une interface utilisateur graphique, un concepteur de modèles exploite les contenus à l'aide d'un document référence, définit des balises sémantiques et assemble tous les éléments en une arborescence de documents cohérente avec un ordre de lecture logique.

2.1 Développer le contenu

  • Les éléments sont classés en fonction du contenu et des artefacts sans signification
  • Les numéros de téléphone, les adresses e-mail et les liens sont identifiés
  • Les illustrations sont reconnues
  • Les tableaux avec en-tête et contenu des lignes sont identifiés
  • Les logos, images ou autres éléments graphiques sont marqués

Capture d'écran : Classification d'un tableau comme élément de contenu.
 

2.2 Tague le contenu

  • Les éléments de contenu indexés sont marqués avec des balises sémantiquement appropriées (balises PDF 1.7 standard)
    Les artefacts ne sont marqués que par une seule étiquette
  • Des textes alternatifs fixes sont déposés pour les images ou les liens
  • Pour les pieds de page et les en-têtes, vous pouvez créer des règles décrivant le contenu, afin qu'il soit tagué en conséquence pour chaque page du document
     

2.3 Créer l'ordre de lecture

  • Tous les éléments sont automatiquement ajoutés à une arborescence de documents qui définit l'ordre de lecture
  • L'ordre de lecture ne doit pas nécessairement correspondre à la sémantique. Elle est ignorée par les validateurs PDF/UA, mais elle est importante pour créer un PDF/UA de bonne qualité


Capture d'écran : Éléments de contenu "balisés" dans l'arborescence du document. Optimisation de l'ordre de lecture par glisser-déposer.
 

3. Intégrer le PDF/UA dans les processus documentaires

Toutes ces règles sont enregistrées par classe de document et exportées sous forme de modèle. le modèle peut être appliqué par lots à un nombre quelconque de documents de la même classe. À la fin du processus de création, on obtient des documents PDF/UA conformes à la législation, qui peuvent être traités sans autre conversion.

 

Procédures de contrôle établies

Pour vérifier la conformité d'un PDF/UA, deux procédures de contrôle se sont établies :

1. PDF Accessibility Checker (PAC) 2024

  • Selon les normes du protocole Matterhorn
  • Complet et WCAG 2.1 le contrôle s'effectue via une interface utilisateur graphique y compris la représentation de l'arborescence des tags et un aperçu pour le lecteur d'écran
  • https://pac.pdf-accessibility.org/

2. veraPDF

  • Selon les normes du protocole Cervin complet
  • La vérification peut être effectuée soit par une application GUI, soit par une application en ligne de commande
  • Librairie Java pour une intégration dans des applications existantes
  • https://verapdf.org/

Norme PDF 1.7

PDF/UA est basé sur le standard PDF 1.7. Cela signifie que si vous avez encore dans vos archives des documents PDF 1.1 ou PDF/A1 par exemple, qui sont basés sur le standard PDF 1.4, la première étape consiste à les optimiser pour un standard plus élevé comme PDF/A2 ou PDF/A3. Là encore, Compart peut vous aider.