Compart - Dokumenten und Output-Management

Aus der Praxis

Automatisierte Dokumentenanalyse

Compart |

Analyse und Prüfung von Dokumenten

Jedes Unternehmen, das personalisierte Werbekampagnen fährt, kennt das Phänomen: Die Variantenvielfalt im Direktmailing nimmt rasant zu. Mehrere Tausend unterschiedlicher Versionen innerhalb einer Kampagne sind keine Seltenheit. Es wäre ein vergebliches Unterfangen, wollte man jedes Dokument manuell mit dem Template/der Vorlage vergleichen. Zu hoch das Fehlerrisiko, zumal die Komplexität von Mailingkampagnen zunimmt.

Eine hundertprozentig zuverlässige Dokumenten­analyse ist unerlässlich. Tools für einen automatisierten Dokumentenvergleich bilden dafür die technologische Grundlage.

Infobox

Lesedauer: 5 Min

  • Automatisierte Analyse und Prüfung von Dokumenten
  • Regelkonformität und Qualitätssicherung
  • Arvato und weitere Fallbeispiele
  • Hintergrundwissen Prüfmethoden

Das Ziel von arvato Bertelsmann

In der Vergangenheit erfolgte die Dokumentenanalyse bei arvato überwiegend manuell. Doch mit dem steigenden Aufkommen an Rechnungen stieß man schnell an Grenzen: Der rein visuelle Vergleich war nicht nur aufwändig, sondern bot auch nicht die hundertprozentige Sicherheit, auf die der Dienstleister angewiesen ist.

Bei der Prüfung mittels verschiedener Testszenarien blieb immer ein Restrisiko. Daher benötigte arvato dringend ein Tool, das den Dokumentenvergleich automatisiert und alle Änderungen berücksichtigt – auch die, die mit bloßem Auge nicht erkennbar sind.

Die Lösung

Seit 2012 arbeitet arvato mit der Prüfsoftsoftware DocBridge® Delta – und ist damit in der Lage, Dokumente sowohl visuell als auch auf Textebene miteinander zu vergleichen. Selbst kleinste Unterschiede deckt die Lösung auf, auch bei komplexen und umfangreichen Schriftstücken. Dank des hohen Automatisierungsgrades ist die Dokumentenanalyse bei arvato inzwischen nicht nur sicherer, sondern auch effizienter: Die Mitarbeiter können sich besser auf ihr Kerngeschäft konzentrieren.

Der Nutzen

  • Nahezu 100 Prozent Prozesssicherheit
  • Verarbeitung aller gängigen Datenformate
  • Konzentration auf das Kerngeschäft - höhere Produktivität
  • hoher Durchsatz (ca. 7.000 Dokumente täglich)
Weitere Aspekte

In der Vergangenheit erfolgte die Datenanalyse bei arvato überwiegend manuell. Doch mit dem steigenden Aufkommen an Rechnungen stieß man schnell an Grenzen: Der rein visuelle Vergleich war nicht nur aufwändig, sondern bot auch nicht die hundertprozentige Sicherheit, auf die der Dienstleister angewiesen ist. Bei der Prüfung mittels verschiedener Testszenarien blieb immer ein Restrisiko.

Vorteile der Prüfmethoden mit der Software DocBridge® Delta:

  • Integrierte Verwaltung von Templates, Bildern, Textbausteinen und anderen Ressourcen für konsistente und stimmige Dokumente
  • Hohe Flexibilität und Skalierbarkeit
  • Impress Designer (Erstellung von Templates) und Impress Engine (Produktion der Dokumente) stehen auch als API-Services (u.a. für Cloud-Umgebungen zur Verfügung)

„Die Datenanalyse ist heute nicht nur sicherer, sondern auch effizienter; schließlich können sich die Mitarbeiter dank der Automatisierung besser auf das Kerngeschäft konzentrieren."


Roger Fuchs
arvato Bertelsmann

Digitaler Dokumentenvergleich
Erfahren Sie mehr zu der gesamten Erfolgsgeschichte des führender europäischen Anbieters für Business Process Outsourcing.
Gesamte Referenz ansehen

Qualitätsicherung von komplexen Dokumenten mit variablen Daten
Bereits unmittelbar nach der Einführung des leistungsfähigen Tools erreichte der Komplettdienstleister für Direktmarketing bei rund 80 Prozent der Prüfungen eine deutlich höhere Verarbeitungsgeschwindigkeit.
Zur Sucess Story

Lösung für Direktmailings
Naehas hat mit dem Einsatz einer Prüfsoftware höhere Qualität und weniger Aufwand bei personalisierten Werbekampagnen in hoher Stückzahl erreicht.
Referenz lesen

Grundprinzip und Architektur von DocBridge® Delta

DocBridge® Delta bietet drei grundlegende Technologien für die Prüfung:

  • Eine interaktive Oberfläche für ad-hoc-Tests
  • Einen kommandozeilengesteuerten Aufruf für die Automatisierung
  • Web Services

Die von Compart entwickelte Lösung findet und analysiert Unterschiede zwischen einzelnen Dokumenten elektronisch und visualisiert diese auch. Dabei werden die in den Dateien kodierten Objekte bis in jede Detailstruktur untersucht und die Unterschiede dargestellt – sowohl visuell als auch textlich. Bestimmte Bereiche lassen sich vom Vergleich ausschließen, beispielsweise das variable Adressfeld.

Visuell Dokumente analysieren und vergleichen

Beim visuellen Vergleich werden beide Dokumente in ein Pixelbild gleicher Auflösung aufgerastert und die umgesetzten Pixelbilder miteinander abgeglichen – ähnlich wie bei einem Lichttisch, bei dem beide Dokumente übereinander gelegt werden, um Differenzen zwischen ihnen erkennen zu können. In der generierten Datei werden die in beiden Dokumenten übereinstimmenden Pixel grau dargestellt. Wenn dagegen einzelne Pixel nur in einem der beiden Dokumente vorkommen, werden die nur im Referenzdokument vorhandenen Pixel in grün und die entsprechenden Pixel im damit abzugleichenden Dokument in rot dargestellt.

Auf diese Weise sind bereits kleinste Unterschiede von Objekten, wie z.B. nur um eine Pixelbreite voneinander abweichende Ränder bei leicht unterschiedlich geschnittenen Zeichen eines Fonts, sofort erkennbar. Sollte bei dem zu vergleichenden Dokument zu erkennen sein, dass der gesamte Inhalt verschoben ist, kann über eine zusätzliche Einstellung die Verschiebung kompensiert werden, um prüfen zu können, ob es außer der Verschiebung noch andere Unterschiede zwischen den Dokumenten gibt.

Wenn in den zu vergleichenden Dokumenten einzelne Seiten vorkommen, die im Vergleichsdokument nicht vorhanden sind, können diese beim Vergleich unterdrückt werden, um beispielsweise zusätzlich erzeugte Leerseiten vom Vergleich auszunehmen. Das Differenzdokument mit den farblich abgehobenen Vergleichspunkten wird als Multipage-TIFF-Dokument bzw. als übliches PDF ausgegeben.

 

Struktureller Vergleich auf Objektebene

DocBridge® Delta schreibt die erkannten Differenzen der einzelnen Objekte auf jeder Seite detailliert in eine Log-Datei. Aus den Einträgen in der Log-Datei lassen sich Unterschiede z.B. folgender Art entnehmen:

  • Unterschiedliche Positionierungen von Objekten
  • Inhaltliche Unterschiede von Objekten wie Textdifferenzen oder unterschiedliche Barcode-Inhalte
  • Unterschiedliche Attribute gleicher Objekttypen wie z.B. unterschiedliche Fonts oder Fontattribute wie Fontgrößen bei gleichem Inhalt des Textes

Vor der Prüfung werden die zu vergleichenden Dokumente in das auf Unicode basierende Metaformat umgesetzt, so dass selbst bei Verwendung einer anderen Codepage nur wirkliche Textunterschiede registriert werden.

Weitere Vergleichsoptionen

Die von Compart entwickelte Lösung findet und analysiert Unterschiede zwischen einzelnen Dokumenten elektronisch und visualisiert diese auch. Dabei werden die in den Dateien kodierten Objekte bis in jede Detailstruktur untersucht und die Unterschiede dargestellt – sowohl visuell als auch textlich. Bestimmte Bereiche lassen sich vom Vergleich ausschließen, beispielsweise das variable Adressfeld.

  • Binärvergleich zwischen zwei Dokumentendateien
  • Prüfung auf Größenunterschiede mit der optionalen Vorgabe eines Mindestwerts in Bits oder Pixeln (nur Größenunterschiede ab einem bestimmten Wert werden berücksichtigt)
  • Vergleich von Seitenanzahl und -anordnung
  • Vergleich auf Basis von Positionierungstoleranzen (nur Positionierungsdifferenzen ab einem bestimmten Wert werden berücksichtigt)
  • Ausklammern definierbarer Seitenbereiche zum Vergleich bei wechselnden Inhalten wie z.B. Adressfeldern oder Datumsangabe
  • Unterschiede bei Metainformationen wie z.B. verschiedene Indizes innerhalb von TLEs in AFP-Dokumenten oder XMP-Informationen in PDF-Dokumenten

Hintergrundwissen Analyse- und Prüfmethoden:

Vorlagenbasierte Dokumentenprüfung

Was tun, wenn man Hunderte verschiedener Dokumente zuverlässig gegen eine bestimmte Vorlage testen muss, die zu prüfenden Dateien in Länge und Struktur aber nicht identisch sind? Herkömmliche Tools ermöglichen einen automatisierten Dokumentenvergleich nur dann, wenn Referenzdokument und Kandidatdokument exakt dieselbe Anzahl an Seiten haben.

Besser, weil flexibler sind 1:n-Vergleiche. Das Prinzip: Eine Ausgabedatei von beliebiger Länge und mit unterschiedlichen Seitentypen wird mit einem vorgegebenen Template Seite für Seite verglichen. Der Vorteil dieser „one-to-many“-Methode: Vorlage (Referenzdokument) und Prüfdatei (Kandidatdokument) müssen hinsichtlich Umfang und Typ der Seiten nicht identisch sein. Somit lässt sich ein zu prüfendes Dokument mit Hunderten von Einzelseiten gegen ein Template von nur wenigen Seiten mit absoluter Sicherheit und Genauigkeit prüfen.

Wichtig: Es genügt nicht, Dokumente nur auf visueller Ebene miteinander zu vergleichen. Denn die Analyse auf Pixelebene bringt wenig, wenn von 1.000 gefundenen Abweichungen tatsächlich nur fünf relevant sind. Vielmehr geht es auch um den Objekt- und Textvergleich, das heißt, der Vergleich muss auf Bit-Ebene erfolgen, denn etliche Abweichungen lassen sich mit bloßem Auge nicht erkennen.

Daher: Gefragt sind Lösungen, die eine größtmögliche Toleranz bei der Prüfung erlauben, ohne die absolute Korrektheit in Inhalt, Corporate Identity (Fonts, Layout etc.) und Compliance (gesetzliche Auflagen) zu vernachlässigen (Fuzzy-Methodik).

Regelbasierte Tests

Dokumente müssen verschiedene Regeln einhalten, gesetzliche wie branchen- und firmenbezogene. Unterstützung bieten hochleistungsfähige Software­lösungen, mit denen sich Dokumente jedes Typs und Formats gegen hinterlegte Regelwerke automatisiert und zuverlässig prüfen lassen. Das können formale Kriterien wie die Einhaltung des Corporate Designs (Wording, Layout etc.) oder die Korrektheit der Adressen als auch die Erfüllung gesetzlicher Regularien (Archivierung/Nachweisbarkeit, Reporting, Datenschutz etc.) sein.

1. Testen gegen produktionsrelevante Faktoren

  • Ist im Dokument genügend Platz vorhanden für das Aufbringen diverser Steuerungszeichen für Kuvertierung, Frankierung, Versand etc. (z. B. OMR = Optical Mark Recognition)

2. Testen gegen postalische Regel

  • Ist das Adressfeld versandgerecht aufgebaut?
  • Entsprechen die verwendeten Fonts und Schriftgrößen den vorgeschriebenen Richtlinien der Postdienstleister?
  • Sind alle für die Ausgabe und den Versand des Dokuments notwendigen Angaben korrekt und vollständig?
  • Gibt es möglicherweise Bilder und Overlays, die das Lesen des Adressfeldes behindern?

3. Testen gegen Regeln des Corporate Designs (CD)

  • Fonts, Farbe, Schriftgröße
  • Logos
  • Footer/Header
  • Textbausteine
  • Impressum

4. Testen gegen gesetzliche Auflagen

  • Elektronische Archivierung nach GDPdU
  • Sarbanes Oxley Act (SOX)
  • KonTraG (Gesetz zur Kontrolle und Transparenz im Unternehmensbereich)
  • GoBD
  • Codes of Federal Regulations (CFR)
Adressmanagement

Die Praxis zeigt: Wer jährlich Sendungen in sechs- oder siebenstelliger Höhe versendet, ist permanent mit Überprüfung der Empfängeradressen beschäftigt. Ein aufwändiger Spaß und ein teurer zudem. Denn trotz verschiedener Dienste zur Adressqualifizierung, die Postdienstleister anbieten (z. B. Premiumadress der DPAG): Es bleibt ein hohes Risiko an Rückläufern.

Qualifiziertes Adressmanagement ist keine Sache, die man nebenher macht. Ohne professionelle Unterstützung durch IT-Lösungen für die automatisierte und zuverlässige Anschriftenvalidierung geht hier nichts. Die Herausforderung: aus jedem beliebigen Datenstrom die Adresse zu extrahieren, auf Vollständigkeit und Korrektheit zu prüfen und die betreffende Sendung gegebenenfalls auszusteuern - BEVOR die Post an den Dienstleister übergeben wird.

Dokumentenanalyse

Detaillierte Informationen über die Struktur einer Druckdatei sind das A und O für eine hohe Qualität im Produktionsdruck. Dabei geht es um Fragen wie:

  • Kann das Dokument auf der verfügbaren Anlage überhaupt gedruckt werden?
  • Muss das Dokument gar neu erstellt werden?
  • Sind Anpassungen und Änderungen erforderlich?
  • Enthält die Datei alle für den Druck notwendigen Angaben (u.a. Steuerungszeichen für Simplex/Duplex, Fonts)?
  • Wie ist die Farbverteilung innerhalb der Datei?

Ziel einer Dokumentenanalyse ist es, Fehldrucke und Produktionsstörungen zu vermeiden

Mit professioneller Software für die Dokumentenanalyse hat Fehldruck keine Chance

Unternehmen, die komplexe Dokumente in großer Stückzahl und in vielen unterschiedlichen Formaten (AFP, PDF, PCL, Metacode, PostScript etc.) drucken, haben oft nicht genügend Ressourcen, die Dateien umfassend zu analysieren. Umso wichtiger sind Softwaretools, die alle für den Hochgeschwindigkeitsdruck wichtigen Daten automatisch ermitteln. Dazu gehören u.a.

  • Erwarteter Tintenverbrauch
  • Seitenzahl/-größe
  • Eingebettete Fonts
  • Anzahl und Struktur von enthaltenen Bildern und Grafiken
  • Simplex- /Duplex-Druck

Eines der wichtigsten Features: die Ermittlung der Farbverteilung innerhalb einer Druckdatei. Diese Softwaretools errechnen exakt den Anteil der für den Vollfarbdruck notwendigen CMYK-Farben – sowohl auf die einzelne Seite als auch auf das Gesamtdokument bezogen.
Der Vorteil? Anhand dieser Ergebnisse lassen sich die Druckkosten noch genauer schätzen. Mehr noch: Softwaretools bieten die Möglichkeit, für die CMYK-Analyse frei definierbare Maximalwerte zu hinterlegen. Auf dieser Grundlage lässt sich dann besser beurteilen, ob ein Druckjob überhaupt wirtschaftlich ist. Kurz: Sie bekommen ein verlässliches Kalkulationsinstrument in die Hand und vereinfachen ihre Dokumentenprüfung.

Regressionstest

Selbst kleinste Änderungen in der Erstellung und Formatierung von Dokumenten beeinflussen deren Layout und Inhalt. Ob ein neuer Font, zusätzliche Seiten oder ein neues Release der dokumentenerzeugenden Software – wer weiß schon immer genau, wie sich die Modifikationen auf die Qualität der Dokumente auswirken? Vor allem: Ist jede Änderung auch wirklich relevant für die Produktion? Ein neues Logo oder eine neue Schriftgröße muss nicht zwangsläufig inhaltliche Konsequenzen haben. Doch um genau die geht es. Das Problem: Herkömmliche Prüfprogramme bieten nur den visuellen Vergleich. Doch die Analyse auf Pixelebene bringt wenig, wenn von 1.000 gefundenen Abweichungen tatsächlich nur fünf relevant sind.

Regressionstest: Qualifiziert prüfen und nicht um jeden Preis

Fakt ist: Die automatisierte und zuverlässige Qualitätsprüfung ist in der hochvolumigen Dokumentenverarbeitung essenziell – schließlich sind Softwareupdates und –erweiterungen in Unternehmen gang und gäbe. Wohl kaum ein Unternehmen hat die Ressourcen, bei jeder Modifikation die neuen Dokumente (Kandidatdokument) manuell gegen die Vorlagen (Referenzdokument) zuverlässig zu prüfen. Schon gar nicht bei Zig Tausenden unterschiedlichen Dokumenttypen! Besser, weil sicherer und schneller, sind automatisierte Regressionstests. Sie prüfen alle Änderungen und Upgrades gegen die bestehenden Anwendungen (Legacy), ohne dass der Mitarbeiter eingreifen muss.

  • Gefragt sind intelligente Analysetools für den Dokumentenvergleich, die jede produktionsrelevante Abweichung erkennen und auflisten
  • Gefragt sind Prüfprogramme, die Dokumente auf Objektebene, also inhaltlich, untersuchen und nicht nur visuell
  • Gefragt sind Softwarelösungen mit frei wählbaren Toleranzgrenzen und der Möglichkeit, Bereiche vom Vergleich auszunehmen

Fazit

Compart automatisiert mit ihren Lösungen die Dokumentenprüfung von Unternehmen, Behörden und Organisationen, verhilft ihnen dadurch zu einer höheren Produktivität im Kerngeschäft und sorgt für die hundertprozentige Regelkonformität der Produkte (Compliance).