Compart - Dokumenten und Output-Management

Entwicklung und Technologie

Hochvolumige Dokumentenstapel und AFP-Datenströme nach PDF/UA konvertieren

Compart |

So funktioniert es automatisch

Wer Archivdokumente barrierefrei zur Verfügung stellen möchte, steht vor der Herausforderung, Millionen von Dokumenten und Datenströmen per Batch nach PDF/UA zu konvertieren. Compart bietet eine Lösung, die diesen Prozess automatisiert – unabhängig davon, wie alt und in welchem Format die Dokumente in den Archiven vorliegen.

Im Folgenden erläutern wir, wie dieser Prozess funktioniert:

1. Dokumente klassifizieren

Unternehmen mit einem hohen Volumen an Kundenkommunikation wie Versicherungen, Banken oder Versorgungsunternehmen haben eines gemeinsam. Viele ihrer Bestandsdokumente besitzen ein statisches Layout. Eine Rechnung, ein Kontoauszug oder eine Versicherungspolice folgen in der Regel einem festen inhaltlichen und grafischen Aufbau. Basierend auf diesem Prinzip können die Dokumente klassifiziert und für jede Dokumentenklasse kann ein separates Regelwerk erarbeitet werden.

2. Regelwerk erstellen und in Templates speichern

Mit Hilfe einer grafischen Benutzeroberfläche identifiziert ein Template-Designer anhand eines Beispieldokuments die Inhalte, versieht diese mit semantischen Tags und fügt alle Elemente zu einem zusammenhängenden Dokumenten-Strukturbaum mit logischer Lesereihenfolge zusammen.

2.1 Den Inhalt identifizieren

  • Elemente werden nach Inhalten und Artefakten klassifiziert. Beispiel für Artefakte sind zum Beispiel rein dekorative Elemente wie Hintergrundgrafiken oder Linien
  • Telefonnummern, E-Mail-Adressen, Links werden identifiziert
  • Abbildungen werden erkannt
  • Tabellen mit Kopf und Zeileninhalt werden erschlossen
  • Logos, Bilder oder andere graphische Elemente werden markiert

Grafik zeigt: Klassifizierung einer Tabelle als Inhaltselement.
 

2.2 Den Inhalt taggen

  • Die erschlossenen Inhaltselemente werden mit semantisch geeigneten Tags (Standard PDF 1.7 Tags) versehen
  • Artefakte werden nur mit einer Markierung versehen
  • Für Bilder oder Links werden feste Alternativtexte hinterlegt
     

2.3 Die Lesereihenfolge erstellen

  • Alle Elemente werden automatisch einem Dokumenten-Strukturbaum zugefügt, der die Lesereihenfolge vorgibt
  • Per „Drag and Drop“ kann die Lesereihenfolge beeinflusst und optimiert werden
  • Die Lesereihenfolge muss nicht der Semantik entsprechen. Sie wird von PDF/UA-Validierern ignoriert, ist aber wichtig, um ein PDF/UA guter Qualität zu erzeugen


Grafik zeigt: "Getaggte" Inhaltselemente im Dokumenten-Strukturbaum. Optimierung der Lesereihenfolge per Drag-and-Drop.
 

3. PDF/UA in die Dokumentenprozesse integrieren

All diese Regeln werden pro Dokumenten­klasse gespeichert und als Template exportiert. Über einen automatischen Workflow kann das Template auf beliebig viele Dokumente der gleichen Klasse im Batch immer wieder angewendet werden. Am Ende des Erstellungs­prozesses stehen gesetzeskonforme PDF/UA-Dokumente, welche ohne weitere Konvertierung weiterverarbeitet werden können.

 

Etablierte Prüfverfahren

Um die Konformität eines PDF/UA zu prüfen, haben sich zwei Prüfverfahren etabliert:

1. PDF Accessibility Checker (PAC) 2024

  • Nach den Standards des kompletten Matterhorn-Protokolls und WCAG 2.1.
  • Prüfung erfolgt über ein GUI
  • inkl. Darstellung des Tag-Baums und einer Screenreader-Vorschau
  • https://pac.pdf-accessibility.org/

2. veraPDF

  • Nach den Standards des kompletten Matterhorn-Prüfung kann entweder über eine GUI Anwendung oder über eine Command-Line Anwendung durchgeführt werden
  • Java – Library für eine Integration in bestehende Anwendungen
  • https://verapdf.org/

PDF-Standard 1.7

PDF/UA basiert auf dem PDF-Standard 1.7. Das heißt, wenn man im Archiv z.B. noch PDF 1.1 oder PDF/A1 Dokumente hat, welche auf dem PDF-Standard 1.4 basieren, dann muss im ersten Schritt auf einen höheren Standard wie PDF/A2 oder PDF/A3 optimiert werden. Auch hier kann Compart Sie unterstützen.