Unsere 10 Insider-Tipps sind das Kondensat aus jahrelanger Arbeit auf dem Gebiet PDF-Vergleich und dem Feedback vieler namhafter Kunden aus allen Branchen. Gerne geben wir hier dieses Geheimwissen an Sie weiter.

Sie fragen sich: “Wie kann ich PDF-Dateien vergleichen?” Das ist eine gute Frage!

Sie wird uns tagtäglich gestellt. Und wir haben sie schon unzählige Male erfolgreich beantwortet.

Die Antwort kann ganz einfach sein. Aber viele Anleitungen machen es sich hier leider zu einfach. Wie hier:

Google's Antwort auf die Frage wie kann ich PDF vergleichen

Auch der Verweis, PDFs einfach online zu vergleichen, kommt häufig vor:

WikiHow's Antwort auf die Frage wie kann ich PDF vergleichen

Tja, diese Art von Anleitungen sind nur die halbe Wahrheit. Allen Lesern, die sich damit zufriedengeben und jetzt unsere Seite verlassen, wünschen wir eine gute Reise…

Schön, Sie sind noch da! Dann lesen Sie weiter, um zum Ninjameister in der Kunst des PDF-Vergleichs zu werden. Gönnen Sie den anderen ruhig den Master of Desaster.

Los gehts:

Tipp 1: Setzen Sie unbedingt Ihren Fokus: Grafik oder Text! 

Schon klar, Sie möchten PDFs vergleichen. Was Ihnen selbst Google nicht einfach so verrät: PDF ist nicht gleich PDF!

PDF ist ein komplexes Containerformat, in das sich alle erdenklichen Dateiformate verpacken lassen. Zum Glück brauchen Sie jetzt nicht die ganze PDF-Spec durchzuarbeiten.

Was Sie über PDF-Dokumente unbedingt wissen müssen, ist folgendes:

Die wichtigsten Inhaltstypen in einer PDF sind:

PDF: Text und Grafik

Um PDF-Dateien optimal vergleichen zu können, müssen Sie unbedingt Ihren Fokus auf einen der beiden Inhaltstypen Text oder Grafik legen.

“Ich habe aber beides! Warum soll ich mich für eines entscheiden?” Dafür gibt es einen ganz logischen Grund:

Die Gesamtheit aller PDF-Vergleichstools auf dem Markt, lässt sich in eine der zwei Klassen einteilen1:

1) textbasierter PDF-Vergleich

Aus den PDF-Dokumenten wird als Erstes der Text extrahiert. Dann findet ein digitaler Textvergleich statt. Abweichungen werden als Wörter bzw. Buchstaben angezeigt.

2) grafischer PDF-Vergleich

Die beiden Dokumente werden zunächst mit Hilfe eines PDF-Renderers in Pixelbilder überführt. Dann findet ein digitaler Bildvergleich statt. Abweichungen werden als Pixel oder Gruppen von Pixeln hervorgehoben. Text und Vektorzeichnungen werden als Teil des gesamten Bildes ebenfalls pixelbasiert mitverglichen.

Diese Einteilung ist wichtig. Sie gilt immer, selbst wenn es einige Tools gibt, bei denen man mit einer Art Modus-Schalter zwischen Grafik- und Textvergleich umschalten kann. Im Prinzip hat man dann nur zwei grundverschiedene Tools, die man über denselben App-Namen starten kann.

Mehr Details zur Funktionsweise beider Ansätze finden Sie (demnächst) in einem separaten Know-How-Artikel: Das große Duell: textbasierter versus grafischer PDF-Vergleich!

Wie wählen Sie nun das passende Vergleichstool aus?

Hierzu gibt es zwei einfache Ausschlusskriterien:

Text

Wie stabil ist das Layout zwischen beiden Dokumenten?

Wenn das Layout zwischen Ihren Dokumenten stark abweicht, beispielsweise durch:

geänderte Schriftarten

Bsp. Courier vs. Times New Roman oder 10pt vs. 12pt

geänderte Zeilenumbrüche

Bsp. Zeilenbreiten geändert oder durch größere Texteinfügungen/-löschungen reformatierte Zeilen

geänderte Spaltenumbrüche

Bsp. einspaltiger vs. mehrspaltiger Text

geänderte Seitenumbrüche

Bsp. PDF A hat 5 Seiten, PDF B hat 7 Seiten

dann können Sie einen Grafikvergleich nicht verwenden.

Sie müssen dann einen Textvergleich verwenden.

Grafik

Sind die relevanten Inhalte in Ihrer PDF überhaupt Text?

Ein textbasierter PDF-Vergleich kann überhaupt nur klappen, wenn Sie in beiden PDFs suchbaren Text haben.

Liegt dagegen der relevante Text vor

als Pixelgrafik

Bsp. durch Scans oder den Output eins RIP

als Vektorgrafik

Bsp. durch Umwandlung von Schriften in Pfade oder durch einen ungünstigen PDF-Export (wie mit einem PDF-Printer)

dann können Sie einen Textvergleich erst einmal nicht verwenden.2

Ebenso gilt, wenn Sie alle Unterschiede in grafischen Elementen sehen müssen, dann hilft Ihnen ein Textvergleich nicht weiter.

Sie müssen dann einen Grafikvergleich verwenden.

Tipp 2: Online oder offline, was kommt für Sie in Frage? 

PDF-Dateien online zu vergleichen, hat einige beliebte Vorteile:

Bevor Sie PDF-Dokumente online vergleichen, sollten Sie aber auch die damit verbundenen Nachteile bedenken:

  • Ihre vertraulichen Dokumente werden über das Internet übertragen, auf fremden Rechnern - teilweise unter ausländischem Recht - verarbeitet und gespeichert
  • auch die Vergleichsresultate können unter Umständen veröffentlicht sein
  • mangelnde Browserkompatibilität kann zu anderer Anzeige oder anderem Bedienverhalten führen als vom Softwareentwickler vorgesehen
  • Version der Software kann ohne Ihr Wissen geändert sein und zu anderen Resultaten führen
  • längere Upload- und Download-Zeiten je nach Dateigröße und Durchsatzrate der Internetverbindung
  • Einschränkungen bei Performanz und Verfügbarkeit ggü. lokaler Installation
  • beschränkte Interaktionsmöglichkeiten der GUI
  • begrenzte Konfigurationsmöglichkeiten und u.U. keine Speicherung eigener Einstellungen

Prüfen Sie vor allem den ersten Punkt:

Möchten Sie vertrauliche Dokumente online vergleichen?

Hierzu gehören insbesondere:

  • personenbezogene Daten, die alle unter den gesetzlichen Datenschutz durch die DSVGO fallen
  • Betriebsgeheimnisse
  • Finanzdaten
  • auch veröffentlichte Dokumente können bis zum Datum der Veröffentlichung vertraulich sein (Geschäftsberichte, Forschungsergebnisse)
Wie vertraulich sind Ihre Dokumente

Wie vertraulich sind Ihre Dokumente? Machen Sie einfach einen Schnelltest, um es herauszufinden.

Wie wichtig ist anderen Nutzern der Schutz Ihrer vertraulichen Dokumente? Diese Bekanntmachung von Draftable Compare macht es deutlich:

Draftable Compare entfernt Sharing

Und wie häufig kommt es schon vor, dass vertrauliche Dokumente im Internet auftauchen? Dazu gibt es eine aktuelle Studie der Sicherheitsfirma Digital Shadows. Demnach wurden von vertraulichen Dokumenten 12.000TB Daten in 1.5 Milliarden Dateien ohne Zugriffschutz im Internet aufgespürt:

Geografische Verteilung der exponierten Daten

Tipp 3: Finden Sie heraus, welche PDF-Technologie Ihr Prüftool verwendet! 

Welches Tool auch immer Sie zum Vergleichen von PDF-Dokumenten einsetzen möchten, was ist der wichtigste Faktor für optimale Resultate? Kurz gesagt: Die Qualität Ihrer Vergleichsergebnisse steht und fällt mit der PDF-Technologie, die in der Software verbaut ist!

Wieso ist das so? Weil der allererste Schritt jeder Vergleichssoftware grundsätzlich ist (siehe Tipp 1):

  • Ihre PDF als Pixelbild zu rendern (für einen Grafikvergleich)

oder

  • aus der PDF den lesbaren Text zu extrahieren (für einen Textvergleich)

Beides ist leichter gesagt als getan. Da PDF ein so komplexes Format ist, sind beide Schritte selbst für Profis keine leichte Aufgabe. Deshalb wird keine Vergleichssoftware auf dem Markt eine eigene Implementierung haben, sondern immer eine vorhandene PDF-Bibliothek zum Rendern und Text extrahieren verwenden.

Finden Sie heraus, um welche PDF-Bibliothek es sich in Ihrer Software handelt! So können Sie einschätzen, ob Ihre Ergebnisse zu Ihren Anforderungen passen. Ohne das richtige Fundament haben Sie sonst auf Sand gebaut, egal wie schön die GUI oder die Reports aussehen - egal wie Performanz oder Preis der Software sind.

Eine kurze Liste von PDF-Bibliotheken finden Sie auf Wikipedia. Eine Übersicht über PDF-Bibliotheken auf Mobile-Plattformen finden Sie bei Toughdev.

Herausforderung Rendern von PDF

Eine Studie der Firma Alfresco vergleicht 8 aktuelle PDF-Bibliotheken auf ihre Render-Resultate. Demnach liefert jede PDF-Bibliothek beim Rendern andere Ergebnisse, hier ein Beispiel für die Anzeige von gerendertem Text:

PDF-Engines im Vergleich: Rendern von Text

Noch deutlichere Unterschiede kann man beim Rendern von Grafik bekommen - links eine Test-PDF im Adobe Acrobat Reader, rechts dieselbe PDF im Foxit Reader:

PDF-Renderergebnis Acoread vs. Foxit Reader
Adobe Acrobat Reader Foxit Reader

Herausforderung Textextraktion aus PDF

Auch die Aufgabe Text aus PDF-Dateien zu extrahieren ist nicht trivial.

In einem Paper vergleichen Bast & Korzen die Textextraktion von 14 verschiedenen PDF-Bibliotheken. Interessant ist auch die Liste der möglichen Probleme, die bei der Extraktion von Text aus PDF-Dateien gefunden wurden:

  • überzählige Zeilenumbrüche
  • fehlende Zeilenumbrüche
  • überzählige Absatzumbrüche
  • fehlende Absatzumbrüche
  • umgeordnete Absätze
  • überzahlige Wörter
  • fehlende Wörter
  • falsch geschriebene Wörter

Weitere Herausforderungen bei der Textextraktion finden sich in einer Aufstellung des Herstellers der PDFlib TET:

  • Zusammenfügen von Worttrennungen (Dehyphenation)
  • künstliche Fettschrift durch Schatten
  • Diakritische Zeichen (Akzentzeichen)
  • Ligaturen
  • Initialen
  • Unicode-Mappings
  • Bidirektionaler Text (z.B. Arabisch, Hebräisch)
  • Fehlerhafte PDF-Dokumente

Der Marktführer

Marktführer auf beiden Gebieten ist die die Adobe PDF Library vom Erfinder des PDF-Formats. Die Ergebnisse von Adobe-Produkten gelten gleichsam als Referenz in Fällen, wenn es zu mehrdeutigen Auslegungen des PDF-Standards kommt: Was Adobe beim Rendern anzeigt oder als Text extrahiert, gilt dann als Referenz. Egal was alle anderen Tools oder Bibliotheken stattdessen liefern.

Das ist gleichzeitig auch das Problem aller oben genannter Benchmarks und Vergleiche, die übrigens häufig sogar kommerzielle Produkte gar nicht erst als Kandidaten in die Auswertung einbeziehen. Meist aus Kostengründen, häufig auch aus lizenzrechtlichen Aspekten (Viralität der GNU General Public License).

Logo Adobe Keine Frage, die Adobe PDF Library kostet gutes Geld.

Und deshalb wird man sie in keiner Freeware, keiner niedrigpreisigen Software und nur in sehr wenigen Online-Portalen finden.

Wenn Sie aber auf zuverlässige grafische Ergebnisse oder eine Referenz bei der Textextraktion nicht verzichten können, dann führt kein Weg an der Adobe PDF Library vorbei. Und die Anschaffungskosten werden sich schnell rechnen.

Wann können Sie auf eine alternative PDF-Engine ausweichen?

Hier eine kleine Checkliste:

  • keine Anforderung an Anzeige gemäß Referenzdarstellung (bei Prepress und Druck unbedingt erforderlich!)
  • PDFs enthalten keine komplexen grafischen Elemente (Overprint, Transparenzen, spezielle Farbräume)
  • die PDFs sind komplett homogen: mit derselben PDF-Software erzeugt (auch identische Version!), mit einheitlichen Einstellungen, mit ähnlichem Inhalt und identischen Schriftarten
  • Ihre PDFs werden nicht an heterogene Umgebungen distribuiert, wo Sie mit verschiedenen PDF-Viewern oder unkontrollierbaren Viewer-Einstellungen betrachtet, weiterverarbeitet oder gedruckt werden
  • bei der Textextraktion ist keine hohe Detailtreue zum ursprünglichen Text erforderlich (Bsp. Indizierungsaufgaben von Suchmaschinen)

Interessanterweise alles Punkte, die der Intention widersprechen, dass PDF als Austauschformat mit plattformübergreifender stabiler Darstellung verwendet wird.

Tipp 4: Prüfen Sie, ob Sie Scans als Input vermeiden können! 

Viele Anwender denken sich: “Wenn ich ein Dokument auf Papier habe, kann ich es einfach scannen und als PDF speichern. Und diese PDF kann ich dann direkt mit einer anderen PDF vergleichen.”

Diese Annahme ist leider falsch! Erfahrungsgemäß werden die Anwender so unzufrieden mit den Vergleichsresultaten sein, dass sie das Thema Dokumenten-Vergleich mit hoher Wahrscheinlichkeit sogar frustiert aufgeben. Wieso ist das so?

Was ist so problematisch an Scans?

Einfach gesagt, liegt es daran, dass hier zwei Welten miteinander kollidieren: die wildwüchsige analoge Welt (Papier) wird in die präzisbegradigte digitale Welt gebeamt.

Born-digital PDF versus Scan: Analog Image

PDF eines Scans

Technisch gesehen sind Scans eine A/D-Wandlung. Und selbst wenn das Ergebnis der Wandlung ein digitales Bild ist, so enthält es als Überbleibsel aus der analogen Welt zahlreiche gravierende Unterschiede zum digitalen Original:

  • Farbabweichungen durch die Eigenfarbe des Papiers, Farbunterschiede beim Erzeugen des Drucks und Aufnahmeeigenschaften des Bildsensors
  • unpräzise Geometrie durch schräges Auflegen oder nicht-ebenes Papier
  • Randeffekte wie Schatten und fehlende bzw. verformte Außenkanten
  • Durchscheinen von der Rückseite bei doppelseitigem Druck
  • Moiré-Effekte von Druckrastern oder Oberflächenstrukturen
  • Unschärfen
  • Spiegelungen bei glänzenden Oberflächen, Unterbelichtungen in dunklen Bereichen, Überbelichtungen oder schlechte Kontraste, ungleichmäßige Beleuchtung über den Seitenverlauf
  • verzerrte Geometrien durch ungleichmäßige Bewegung der Scanmechanik oder des Papiereinzugs
  • Kompressionsartefakte durch verlustbehaftete Verfahren (JPEG)
  • Abweichungen durch Knicke, Heftungen, Lochungen und handschriftliche Notizen
  • Verschmutzungen auf dem Scanner, Partikel im Papier, unsauberer Druck

Und es gibt noch einen wichtigen Unterschied, den jeder Scan gegenüber dem digitalen Original hat: Das Ergebnis des Scanvorgangs ist ein Digitalbild, auch wenn Sie es als PDF speichern:

  • Ein Scan ist erst einmal nur ein Pixelbild. Insbesondere enthält die PDF deshalb keine Vektorgrafiken und keinen suchbaren Text.

Was muss ich beim Vergleich Scan gegen PDF beachten?

Hier gibt es grundsätzlich zwei Möglichkeiten (siehe Tipp #1):

  1. Wenn Sie einen Scan mit einem Textvergleich gegen eine PDF prüfen möchten, müssen Sie unbedingt das Scanbild noch mit einer OCR-Software um suchbaren Text ergänzen lassen. Auch bei der besten Texterkennungssoftware werden Sie einige falsch erkannte Buchstaben bekommen. Bei einer Erkennungsrate von 99,9% sind das immerhin noch ungefähr alle 150 Wörter ein Fehler. Im Optimalfall – die Realität fällt bei schlechten Scanvorlagen noch deutlich ungünstiger aus.

  2. Wenn Sie den Scan mit einem Grafikvergleich gegen eine PDF prüfen möchten, muss die Vergleichssoftware unbedingt sämtliche oben beschriebenen systematischen Bildabweichungen kompensieren. Das heißt, bevor irgendwelche sinnvollen Vergleichsergebnisse ermittelt werden können, brauchen Sie Bildverarbeitungsfunktionen zur Geometriekorrektur, Farbanpassungen, Rausch- und Fehlerunterdrückung. Alles Features, die man nur in Vergleichssoftware für den Profibereich findet. Häufig ist auch besonderes Fachwissen nötig, um die Scans optimal zu erzeugen und die Kompensationsalgorithmen korrekt einzustellen. Prinzipbedingt werden Sie trotz gut kalibrierter Systeme deutlich mehr Abweichungen vorfinden, als je mit einem Vergleich zwischen digitalen Vorlagen akzeptabel wären.

Deshalb unser gut gemeinter Rat: Wenn immer es möglich ist, sollten Sie Scans als Inputs vermeiden und die digitalen Dokumente miteinander vergleichen!

Bedenken Sie: Fast jedes Dokument, was Sie auf Papier in Händen halten, wurde vorher am Computer erzeugt! Versuchen Sie unbedingt, an diese digitalen Dokumente heranzukommen und Sie werden einen Quantensprung in der Qualität Ihrer Vergleichsergebnisse erzielen!

Tipp 5: Optimieren Sie die Qualität Ihrer Inputs, bevor Sie an Vergleichsresultaten herumdoktern. 

Kennen Sie die Phrase Garbage In, Garbage Out?

Diese Binsenweisheit trifft insbesondere auch für das Thema PDF vergleichen zu: Wenn Sie mit schlechten Inputs arbeiten, können Sie auch keine guten Outputs erzeugen.

Umgekehrt gilt: Wenn Sie mit den Vergleichsresultaten nicht zufrieden sind, folgt daraus als erste und wichtigste Maßnahme: Optimieren Sie die Qualität Ihrer Inputs.

Hier ein paar Sofortmaßnahmen, die Ihnen weiterhelfen werden:

Export nach PDF richtig erzeugen

Sie haben Ihre Dokumente bzw. Artworks mit Word, InDesign, Illustrator oder ArtPro erzeugt. Wie erzeugen Sie nun am besten eine PDF?

Die Antwort ist eigentlich ganz einfach:

Das ist der sicherste Weg, um aus Ihren Dokumenten eine optimale PDF zu erzeugen, mit einem bestmöglichen internen Aufbau des PDF-Inhalts.

Heutzutage hat jede Software eine solche Funktion für den PDF-Export. Wenn nicht, sollten Sie prüfen, ob Sie wirklich eine aktuelle Version installiert haben. (Falls Ihre Software tatsächlich keinen PDF-Export hat, ist es vermutlich höchste Zeit, auf ein anderes zeitgemäßes DTP-Programm zu wechseln.)

Einige sehr problematische Wege PDF zu erzeugen, sind:

  • PDF-Druckertreiber: ein virtueller Drucker, den Sie aus Ihrer Software mit den Funktion Drucken ansprechen, um PDF-Dokumente zu erzeugen (z.B. PDFCreator oder zahlreiche weitere PDF-Drucker)
  • Adobe Distiller: erzeugt PDF per Umweg über PostScript

Auch wenn die so erzeugten PDFs für einen menschlichen Betrachter gut aussehen mögen, so kann doch der interne technische Aufbau aus Sicht einer PDF-Vergleichssoftware völlig durcheinander sein.

Für einen textbasierten PDF-Vergleich ist die Wortreihenfolge in so erzeugten PDFs häufig nicht korrekt und stimmt nicht mehr mit der ursprünglichen Logik des Dokuments überein. Auch spezielle Schriftarten, Akzentzeichen und Sonderzeichen können durch den Trick mit dem PDF-Drucker verloren gehen, wenn sie als grafische Elemente statt als Text eingebettet werden.

Und für einen grafischen PDF-Vergleich, wo Sie Artworks oder grafisch anspruchsvolle Dokumente vergleichen möchten, verbietet sich so ein indirekter Export sowieso. Denn für mühsam angelegte Feinheiten – wie Überdrucken-Eigenschaften, Transparenzen und präzise positionierte Grafikelemente – lässt sich bei diesem Umweg auf keinen Fall eine 100%ige Korrektheit garantieren.

Vermeiden Sie PDF-Tools zum nachträglichen Editieren der PDF

Tools zum Bearbeiten von PDF sind sehr beliebt. Bevor Sie solche Tools auf Ihre PDF-Dateien anwenden, bedenken Sie bitte: Modifikationen an PDFs sind immer fehleranfällig.

Dazu zählen unter anderem folgende Änderungen an PDFs, die Sie so weit wie möglich vermeiden sollten:

  • Entfernen von Seiten aus der PDF
  • Zusammenfügen (Merge) mehrerer PDF-Dateien zu einer PDF
  • Löschen oder Schwärzen von PDF Text oder Objekten
  • Komprimieren von PDF zum Reduzieren der Dateigröße
  • Freistellen von Bereichen in der PDF
  • Ausblenden von Sonderfarben (spot colors) oder PDF Ebenen (layers)
  • Änderungen an den PDF Seitenrahmen (MediaBox, CropBox, TrimBox, BleedBox, ArtBox)

Besser ist es, folgende Regel zu befolgen:

Verwenden Sie immer Ihre Original-PDFs als Input für den PDF-Vergleich. Und lassen Sie die Operationen aus der o.g. Liste direkt durch Funktionen in der PDF-Vergleichssoftware durchführen.

So vermeiden Sie das Risiko von fehlerhaften Modifikationen durch PDF-Tools.

OCR-Resultate von Scans optimieren

Falls Sie unbedingt mit Scans arbeiten müssen (Argumente dagegen siehe Tipp 4), sollten Sie alles daransetzen, Ihre OCR-Resultate zu optimieren.

Wichtige Punkte, die Sie berücksichtigen sollten:

Weitere Tipps finden Sie beispielsweise auch in dieser Studie: 10 Ways to Improve Capture OCR and Indexing. Dort findet sich auch ein nützliches Fazit:

Was überrascht, ist, dass die tatsächliche Erkennungsphase der Erfassung der wichtigste Schritt für die automatisierte Indizierung zu sein scheint - schließlich ist dies die Phase, in der die OCR durchgeführt wird. Sie werden jedoch feststellen, dass mindestens die Hälfte der für eine erfolgreiche Indizierung relevanten Faktoren während der Vorerkennungsschritte auftritt, insbesondere bei der Erzielung einer angemessenen Bildqualität für OCR und Indizierung.

Tipp 6: Reduzieren Sie angezeigte Unterschiede auf ein Minimum! 

So weit, so gut. Sie haben Tipp 1 bis Tipp 5 befolgt und kommen jetzt endlich dazu, die Vergleichsergebnisse für Ihre PDF-Dateien näher anzuschauen.

Sie werden überrascht sein! Denn ein digitaler PDF-Vergleich wird Ihnen ein ganz anderes Ergebnis liefern, als Sie es vom manuellen Vergleichen her kennen:

Prinzipbedingt werden Sie sehr viel mehr Unterschiede als erwartet angezeigt bekommen.

Eigentlich doch sehr schön, wie genau die Unterschiede bis in kleinste Detail hervorgehoben werden? Ja – und nein!

Denn es ergibt sich nämlich ganz schnell ein neues Problem: Wenn Sie zu viele Unterschiede sehen, besteht wieder die Gefahr, dass wichtigte Unterschiede in der Masse unwichtiger Unterschiede untergehen.

Und genau dann nützt auch die schönste Präzision des digitalen PDF-Vergleichs nichts mehr, wenn man den Wald vor lauter Bäumen nicht sieht.

Deshalb unser wichtiger Tipp, wie Sie am besten zu nützlichen Vergleichergebnissen kommen:

Weniger ist mehr! Versuchen Sie immer die Anzahl angezeigter Unterschiede auf ein Minimum zu reduzieren.

Nutzen Sie hierfür die Einstellungen und Tools (Beispiele s.u.) der PDF-Vergleichssoftware, um nicht-relevante Unterschiede herauszufiltern.

So vermeiden Sie das Risiko wirklich wichtige Unterschiede in einer Masse unwichtiger Unterschiede zu übersehen.

Ein paar Beispiele für Einstellungen und Tools, wie Sie unwichtige Unterschiede reduzieren können:

  • bei einem grafischen PDF-Vergleich:
    • Definition einer ROI (region of interest), um unkritische Bereiche aus dem Vergleich auszuschließen (z.B. die Legende oder bei Faltschachteln den Bereich außerhalb der Stanzkontur)
    • Ausblenden von Sonderfarben oder Ebenen zum Ausschluss von technischen Elementen (Bemaßungen, Schnittmarken, Lackfreiflächen)
    • einstellbare Toleranzen, um kleinste Farbabweichungen und winzige Pixelunterschiede ignorieren zu können
    • Gruppierung von Differenzpixeln in größere Unterschiedsregionen statt jeden Pixel getrennt anzuzeigen
  • bei einem textbasierten PDF-Vergleich:
    • Ausschluss einzelner Seiten (z.B. Vorspann oder Anhang), um den Vergleich auf den Haupttext einzuschränken
    • Definition von Ausschlussbereichen (z.B. Kopf- und Fußzeilen), um häufig geänderte Seitenbereiche auszublenden
    • Behandlung von Worttrennungen (dehyphenation), um geänderte Zeilenumbrüche ignorieren zu können
    • Ersetzenfunktion, um systematische Wortänderungen zwischen beiden Versionen einheitlich anzugleichen
    • Angleichen des Textflusses, um komplexe Layouts trotz intern geänderter Wortreihenfolgen miteinander zu synchronisieren

Tipp 7: Arbeiten Sie interaktiv mit den Vergleichsresultaten: inspizieren, bewerten, kommentieren… Ohne Fleiß, kein Preis! 

Nehmen wir an, Sie haben es geschafft, mit Hilfe von Tipp 6 Ihre maschinell berechneten Vergleichsresultate auf das machbare Minimum zu reduzieren. Was kommt nun? Ist Ihre Arbeit jetzt getan? Leider nein.

Nun kommt die wichtigste Aufgabe von allen:

Die Auswertung der angezeigten Unterschiede. Hier ist Ihre Expertise und Ihre Entscheidung gefordert, wie die einzelnen Unterschiede zu bewerten sind und wie weiter mit ihnen verfahren werden soll.

Dieser Arbeitsschritt besteht aus dem Auswertungs-Dreiklang:

Import

Inspect

Report

1 2 3

In­spi­zie­ren

Be­wer­ten

Ent­schei­den­

Für jeden einzelnen angezeigten Unterschied sind folgende typische Fragen zu beantworten:

InspizierenInspizieren

  • Worin liegt genau der Unterschied zwischen Version A und Version B?
    • Ihre Vergleichssoftware sollte Ihnen eine Liste von Unterschieden anzeigen, durch die Sie schrittweise von Unterschied zu Unterschied navigieren können.

      • Ihre Vergleichssoftware hat überhaupt keine navigierbare Liste von Unterschieden? Das heißt: Sie bekommen zwar Unterschiede angezeigt, müssen aber selber nach ihnen suchen? Die Gefahr, einzelne Fundstellen zu übersehen, wächst damit beträchtlich. Der Nutzen der Software wird dadurch so gravierend eingeschränkt, dass Sie ernsthaft den Wechsel zu einer anderen Lösung in Betracht ziehen sollten.
    • Für den aktuellen Unterschied sollte die Software Ihnen eine übersichtliche Gegenüberstellung anzeigen, wie die Fundstelle in Version A und Version B aussieht.

Liste von Unterschieden: Textbasierter Vergleich

Liste von Unterschieden – textbasierter Vergleich: am Beispiel von PDiff

Liste von Unterschieden: Grafischer Vergleich

Liste von Unterschieden – grafischer Vergleich: am Beispiel von d’accord Scan

Inspizieren: grafischer Vergleich

Bei einem grafischen Vergleich helfen zusätzliche Inspektortools wie ein Lupenfenster, um Details und Deltapixel genauer erkennen zu können. Auch eine Blinkfunktion mit schnellem Wechsel zwischen Version A und B ist sehr hilfreich, um die Unterschiede auf einen Blick nachvollziehen zu können.

Grafischer Vergleich: Lupenfenster mit Blinkfunktion

Inspizieren – grafischer Vergleich: am Beispiel von d’accord

Inspizieren: textbasierter Vergleich

Bei einem textbasierten Vergleich sind Inspektortools wichtig, die Ihnen den tatsächlich extrahierten Text anzeigen mit Details zu Schriftarten und Schriftattributen (Fett, Kursiv, Hoch-/Tiefstellung, Unterstreichung und Durchstreichung). Auch die Abbildung von Zeichen auf Unicodes und ein zeichenweiser Diff (als Ergänzung zum wortweisen Diff) helfen Ihnen, optisch schwer erkennbare Unterschiede nachvollziehen zu können.

Textbasierter Vergleich: Extrahierter Text mit Inspektor für Unicodes

Inspizieren – textbasierter Vergleich: am Beispiel von PDiff

BewertenBewerten

  • Handelt es sich um einen tatsächlich relevanten Unterschied oder eher ein vernachlässigbaren Unterschied bzw. ein Artefakt (false positive)?
    • In der Regel wird der maschinelle Vergleich deutlich empfindlicher sein als ein menschlicher Betrachter. Deshalb sollte die Software Ihnen die Möglichkeit bieten, vernachlässigbare Unterschiede einzeln auszublenden (zum Beispiel durch eine Checkbox zum Abhaken).
  • Handelt es sich um eine beabsichtigte Änderung oder um eine unbeabsichtigte Änderung? Wodurch ist der Unterschied entstanden?
    • Die Kernfrage, die nur Sie beantworten können und keine Software:
      • Ist die Änderung in Ordnung und wird von Ihnen abgenommen?
      • Oder handelt es sich um eine unbeabsichtigte Änderung (z.B. durch das Editieren an einer Stelle im Dokument wurde eine ganz andere Stelle versehentlich oder durch einen Bug in der DTP-Software in Mitleidenschaft gezogen)…
      • … bzw. handelt es sich um eine unerwünschte Änderung (zum Beispiel in einem Vertrag wurde von der anderen Partei eine Textstelle zu Ihren Ungunsten geändert)
    • Diese Entscheidung “akzeptiert” vs. “abgelehnt” müssen Sie für jede einzelne Änderung treffen und mit der Vergleichssoftware dokumentieren können. Idealerweise mit auswählbaren Kategorien oder Freitext-Kommentaren.
  • Sind alle beabsichtigten Änderungen (Korrekturen) auch tatsächlich in der neuen Version gemacht worden?
    • Häufig gibt es auch den umgekehrten Fall: Die Abwesenheit eines Unterschieds ist als Fehler zu bewerten. Wenn Sie eine Liste von Korrekturen prüfen, dann erwarten Sie, dass eine beabsichtigte Änderung in der Version B vorhanden sein muss.

EntscheidenEntscheiden

  • Wie ist mit den Unterschieden weiter zu verfahren?
    • Falls gefundene Unterschiede zu korrigieren sind, sollten Sie diese entsprechend markieren können. Übliche Tools sind hier wieder die o.g. Funktionen Abhaken, auswählbare Kategorien oder Kommentare.
    • Der Normalfall wird sein, dass Sie mit allen vorgefundenen Unterschieden zufrieden sind. Auch dann kann es sinnvoll sein, die einzelnen Unterschiede gegenüber weiteren Nutzern des Dokuments (z.B. Kunden, Kollegen, Regulierungsbehörden) näher zu erläutern. Hierzu können Sie ebenso die Funktionen Abhaken, auswählbare Kategorien oder Kommentare nutzen.
    • Letztendlich steht als Gesamtergebnis Ihre Entscheidung über die Abnahme der neuen Version aus: Ist die neue Version B auf Basis der vorgefundenen Unterschiede in Ordnung? Oder macht eine einzelne Änderung die gesamte neue Version B des Dokuments komplett ungültig? Auch diese Entscheidung sollte dokumentierbar sein. Meist ist hierfür sogar ein Report in Papierform und Ihre Unterschrift erforderlich (siehe Tipp 8).

Tipp 8: Nur an Ihre Anforderungen angepasste Outputs sind gute Outputs! 

Software zum PDF-Vergleich bietet in der Regel auch die Möglichkeit, einen Vergleichsreport als Output zu erzeugen. Schön und gut.

Aber ehe Sie sich mit dem erstbesten (im schlechtesten Fall sogar einzig möglichen) Output zufriedengeben, sollten Sie zunächst in Ruhe überlegen, welche Art von Output Sie idealerweise haben möchten.

Und dann im zweiten Schritt prüfen Sie, wie sich in Ihrer Vergleichssoftware der Output optimal an Ihre Anforderungen anpassen lässt.

  • Sie können nur ein Output-Format erzeugen und Form und Inhalt nicht weiter konfigurieren? Dann prüfen Sie genau, ob der Output Ihre Anforderungen erfüllen kann und zu Ihrer Zielgruppe passt. Sonst sollten Sie eine andere Lösung in Betracht ziehen.

Je nachdem, wer Ihre Zielgruppe ist, kann der optimale Output ganz unterschiedlich aussehen:

Für Kunden

  • Ziel: Übersichtlichkeit, Verständlichkeit, Effiziente Nutzbarkeit

Ihre Kunden möchten sich möglichst schnell einen Überblick über die Unterschiede in den beiden Versionen beschaffen. Sie bieten den Vergleichsreport evtl. sogar als Zusatzleistung an. Gerade dann steht auch der Zusatznutzen an erster Stelle.

Zu viele Details möchten Sie Ihren Kunden lieber ersparen. Schließlich soll der Zusatznutzen auch für Sie keine Nachteile in Form von Missverständnissen oder erhöhten Rückfragen haben.

Als Austauschformat bietet sich ein PDF-Report an, der möglichst übersichtlich und selbsterklärend sein sollte. Beispielsweise eine schnell zu erfassende Gegenüberstellung von Version A+B (side-by-side) mit hervorgehobenen Unterschieden. Die Unterschiede können als PDF-Kommentare auch in kostenlosen PDF-Readern als navigierbare Liste genutzt werden und ggf. auch Ihre Kommentare zu den einzelnen Unterschieden enthalten.

Gegenüberstellung von Version A+B
PDF-Report Version A+B

Für Kollegen

  • Ziel: Vollständigkeit, Nachvollziehbarkeit, Reproduzierbarkeit

Ihre Kollegen möchten im Gegensatz zu Ihren Kunden eher mit einem sehr detaillierten und reproduzierbaren Output versorgt werden.

Zur schnellen Kommunikation ist sicherlich auch hier ein PDF-Report hilfreich, der alle Unterschiede übersichtlich anzeigt, inklusive Ihrer Bewertungen und Kommentare. Aber zusätzlich auch mit möglichst vielen Details, wie Sie zu dem Ergebnis gekommen sind: Dateipfaden der verwendeten Inputdokumente (zur eindeutigen Identifizierbarkeit am besten incl. MD5-Checksum), die verwendeten Programmeinstellungen, die von Ihnen durchgeführten Arbeitsschritte usw.

Falls Sie für sich oder Ihre Kollegen ein hunderprotzentig reproduzierbares Vergleichsresultat als Output speichern möchten, ist ein PDF-Report nicht die beste Wahl. Stattdessen sollte Ihre Software auch ein eigenes Projektformats speichern können. Dadurch lässt sich ein Vergleich einfach laden und weiter bearbeiten. Sie können so beispielsweise weitere Kommentare hinzufügen oder eine Neuberechnung mit verbesserten Vergleichsparametern durchführen.

Häufig kommt es auch vor, dass Sie aus der Version B eine neue Version C des Dokuments erzeugt haben und diese nun gegen die ursprüngliche Version A vergleichen möchten. Auch hierfür ist es am einfachsten, das gespeicherte Projekt mit dem Vergleich A vs. B zu laden und die vorher verglichene Version B gegen die neue Version C auszutauschen.

Detaillierter Vergleichsreport
Eigenes Projektformat
Detaillierter PDF-Report Eigenes Projektformat

Für Regulierungsbehörden oder Qualitätssicherung

  • Ziel: Einhaltung formaler Vorgaben

Wenn Sie Ihre Vergleichsreports für die Qualitätssicherung – insbesondere in stark regulierten Branchen (z.B. Pharma, Medizinische Geräte, Lebensmittel oder Energie) – verwenden möchten, müssen Ihre Outputs besondere formale Vorgaben erfüllen.

Als Austauschformat eignet sich auch hier ein PDF-Report. Der Inhalt sollte selbstverständlich klar nachvollziehbare Unterschiede zwischen den Dokumentenversionen enthalten.

Je nach Branche kann es hierzu besondere formale Anforderungen geben: Beispielsweise bei medizinischen Regulierungsbehörden und im juristischen Bereich ist es erforderlich, das Vergleichsergebnis als synoptische Gegenüberstellung von Texten anzugeben, bei der korrespondieren Passagen auf derselben Höhe nebeneinander stehen und der komplette Text aus beiden Dokumenten sichtbar ist.

Zusätzlich sollte der Report auch alle Details im Sinne eines Audit Trails enthalten wie:

  • Anwender
  • Zeitstempel
  • Verwendete Einstellungen/Softwareversion
  • Durchgeführte Schritte zur Reproduzierbarkeit des Ergebnisses
  • Begründung für die Änderung
  • Unterschrift (handschriftlich oder elektronisch)
Tabellarischer Vergleichsreport mit Textsynopse für Regulierungsbehörden und Qualitätssicherung
Tabellarischer PDF-Report mit Textsynopse

Für Automatisierung

  • Ziel: Maschinenlesbarkeit

Wenn Sie Ihr Vergleichsresultat automatisiert weiterverarbeiten möchten, z.B. in eigenen Softwaresystemen oder kompletten Workflow-Lösungen, dann hilft Ihnen ein PDF-Report nicht weiter.

Was Sie brauchen, ist ein maschinenlesbarer Output wie im XML-Format oder CSV-Format. Im einfachsten Fall reicht schon ein simpler Return-Code, der anzeigt, ob der Vergleich Unterschiede gefunden hat oder beide Dokumente mit den gewählten Einstellungen als identisch zu betrachten sind.

XML
Return-Code
XML / CSV Return-Code

Tipp 9: Je mehr Sie standardisieren und automatisieren, umso besser! 

Wenn Sie öfters PDF-Dokumente vergleichen, werden Sie schnell herausfinden, wie sich die besten Ergebnisse erzielen lassen. Dieses Wissen können Sie am besten für sich (und Ihre Kollegen) festhalten, wenn Sie den Vergleichsprozess standardisieren:

Im einfachsten Fall können das einige Arbeitsschritte oder Einstellungen sein. Im maximalen Fall auch die komplette Automatisierung.

Vorteile eines standardisierten Vergleichsprozesses

Was lässt sich standardisieren?

Eingangsdaten

Sie erzeugen Ihre Dokumente selber? Dann können Sie schon bei der Erstellung der Dokumente vieles vereinheitlichen, was später für den PDF-Vergleich hilfreich ist (siehe auch Tipp 5). Zum Beispiel:

  • Inhalt und Aufbau der Dokumente, z.B. Formatvorlagen mit Unicode-tauglichen Schriftarten, Verwendung von PDF-Ebenen für technische Objekten wie Stanzkonturen und Lackfreiflächen, notfalls einheitliches Namensschema für Sonderfarben von technischen Objekten
  • Exportmethode zum Speichern im PDF-Format
  • Dateinamen und Speicherorte zur Zuordnung der beiden zu vergleichenden PDFs
  • Falls Sie mit Scans arbeiten, optimieren Sie die Einstellungen in Ihrem Scanprozess (siehe auch Tipp 4).

Bei extern erzeugten Dokumenten wird eine Standardisierung schon schwieriger, aber doch nicht unmöglich.

  • Gibt es bestimmte Dokumente mit besseren Vergleichsergebnissen als die übrigen Eingänge? Finden Sie heraus, woran das liegen könnte (z.B. unterschiedliche Software zur PDF-Erzeugung, problematische Schriftarten, komplexe Grafikeigenschaften von Objekten oder abweichende Einstellungen beim Export)? Kontaktieren Sie Ihren Lieferanten und bitten um seine Mithilfe.
  • Wenn Sie Auftraggeber für die Dokumentenerzeugung sind, dann können Sie sogar bei Ihrem Lieferanten Vorgaben zu Aufbau und Format der Dokumente machen, die Ihnen einen Einsatz beim PDF-Vergleich wesentlich erleichtern bzw. erst ermöglichen.
  • Oder klassifizieren Sie Quellen anhand von Erfahrungswerten, so dass Sie schon früh wissen, woher problematischere bzw. unproblematischere Dokumente kommen und wie Sie Ihren Arbeitsaufwand je nach Quelle entsprechend kalkulieren können.

Verarbeitung

Für den eigentlichen Vergleichsprozess gibt es verschiedene Ansätze, den Vorgang zu vereinheitlichen:

Speichern Sie Einstellungen, die sich bewährt haben, um sie für weitere Vergleichsprojekte erneut zu verwenden. Einige Beispiele für typische Einstellungen:

  • Render-Einstellungen
  • Prüftoleranzen
  • PDF-Rahmen (Mediabox/Cropbox/Trimbox/…), Ausschlussbereiche bzw. ROI
  • Standardnamen von Layern/Sonderfarben mit techn. Objekten

Idealerweise können Sie mit Ihrer Software sogar mehrere Einstellungsprofile speichern und dann passend zum jeweiligen Anwendungsfall wiederverwenden (z.B. Art der Inputdaten, je nach Kunde oder je nach Projekttyp in Ihrem Hause).

Für den Austausch mit Kollegen oder zwischen verschiedenen Rechnern ist es sehr hilfreich, wenn sich die Einstellungsprofile in eine Datei exportieren lassen. Diese können Sie dann abteilungsweit austauschen (geteiltes Netzlaufwerk oder E-Mail).

Zusätzlich zu Einstellungsprofilen können Sie auch in einer Art Leitfaden die Arbeitsschritte beim PDF-Vergleich definieren:

  • Arbeitsschritte zum Minimieren der Unterschiede (Welche Unterschiede werden mit welchen Funktionen reduziert?)
  • Was darf/sollte ausgblendet werden, was nicht?
  • Wie wird das Vorgehen dokumentiert?

Auch können Sie einheitliche Abläufe bei der Bewertung festlegen:

  • Inspizieren (Muss jeder Unterschied als “gesehen” markiert werden?)
  • Bewerten (Muss jeder Unterschied mit einem Kommentar versehen werden? Festlegung von Kategorien bzw. Standardformulierungen für die Kommentare.)
  • Abnahme (Wann soll das gesamte Dokument abgenommen oder abgelehnt werden?)

Ausgangsdaten und Nachverarbeitung

Schließlich lassen sich auch die Outputs und die Nachverarbeitung der Outputs standardisieren – wie zum Beispiel:

  • Festlegung des geeigneten Reportformats
  • Umfang und Layout des Reports als Teil der Einstellungen
  • Dateinamen und Speicherorte zur Dokumentation der Vergleichsergebnisses
  • Weiteres Vorgehen nach Abnahme oder Ablehnung

Welche Möglichkeiten der Automatisierung gibt es?

Den höchsten Grad an Standardisierung erhalten Sie durch eine komplette Automatisierung des Dokumentenvergleichs. Typische Verfahren hierfür sind:

  • Batch-Betrieb in der GUI
  • Batch-Betrieb per CLI
    • Aufruf aus eigenen Scripten
    • Aufruf aus komplexen Softwaresystemen
    • Hotfolder-Technologie
    • Integration in Workflow-Systeme

In der Regel werden Sie durch die Automatisierung Ihre Dokumente in zwei Klassen einteilen:

  1. Unproblematische Dokumente, die direkt weiterverarbeitet werden können.
  2. Auffällige Dokumente, die zunächst noch einmal manuell gesichtet werden sollten.

Ein Teil der auffälligen Dokumente kann dann wieder der Klasse 1 zur Weiterverarbeitung zugeordnet werden. Der Rest bedarf dann einer weiteren Überarbeitung und wird dann in der neuen Version erneut durch das Prüfsystem gegeben.

Tipp 10 (Pro-Tipp): Checken Sie Ihre Arbeitsabläufe! 

Natürlich freuen wir uns über das positive Feedback unserer Kunden, die uns berichten, wie Ihnen der Einsatz einer PDF-Vergleichssoftware geholfen hat, Ihre Dokumente schneller und sicherer zu vergleichen. Und wie sie die Abläufe in Ihre Qualitätssicherung integriert haben und nun die Prüfresultate übersichtlich dokumentieren können.

Aber abseits der vielen technischen Details, mit denen wir uns hier beschäftigt haben, gibt es eine überraschende Einsicht einiger besonders zufriedener Kunden:

Zusätzlich zum direkten Nutzen einer PDF-Vergleichssoftware hat sich im Zuge der eingeführten Standardisierung bzw. Automatisierung (siehe Tipp 9) ein weit größerer Vorteil ergeben. Als positiven Nebeneffekt haben diese Kunden besonders davon profitiert, dass sie eine Neubewertung und Weiterentwicklung ihrer gesamten Arbeitsabläufe rund um die Dokumentenerzeugung und Weiterverarbeitung vorgenommen haben.

Einige Ideen, was Sie bei Ihren Arbeitsabläufen prüfen könnten:

  • Wo überall kommen Ihrem Hause unterschiedliche Dokumentenversionen vor? Werden die Versionen schon zuverlässig miteinander verglichen?
  • Werden die Versionen bei Ihnen erzeugt und lassen Sie sich weiter standardisieren?
  • Oder erhalten Sie eine/beide Versionen aus externen Quellen und können dort schon die Qualität verbessern?
  • Werden alle Prüfergebnisse ausreichend dokumentiert und wie sehen die Prozesse zur Weiterverabeitung aus?
  • Unter Umständen kann es Sinn machen, bei mehreren Zwischenschritten der Verarbeitungskette Versionsvergleiche durchzuführen – und nicht erst zwischen sehr unterschiedlichen Versionen aus weit entfernten Verarbeitungsschritten. Im Allgemeinen ändert sich das Layout am Anfang der Verarbeitungskette stark. Zum Ende hin sollte es immer stabiler sein. Dann können Softwarelösungen mit unterschiedlichen Vergleichsansätzen nötig sein (siehe Tipp 1).
  • Nehmen Sie Ihre Lieferanten und Kunden mit ins Boot, indem Sie Ihnen Vergleichsreports zur Verfügung stellen. Beide Gruppen werden für objektive Resultate dankbar sein und die Qualität Ihrer Arbeit zu schätzen wissen.
  1. Wie immer gilt: Ausnahmen bestätigen die Regel. Tatsächlich gibt es ein paar wenige Sonderlösungen, die neuerdings einen Hybridansatz verfolgen: Die PDF wird zunächst zerlegt in Text und Nicht-Text (der Rest wie Pixelgrafiken und Vektorgrafiken). Dann wird getrennt ein Textvergleich und ein Grafikvergleich angewendet. Alle o.g. Aussagen zu den einzelnen Vergleichsmethoden behalten auch hier ihre Gültigkeit für den jeweiligen Inhaltstyp. Ein Beispiel für einen Hybridansatz ist unser Diff GT

  2. Mit einer OCR-Software können Sie mit Einschränkungen den Text wieder in suchbaren Text umwandeln lassen. Eine Übersicht über die Erkennungsleistung aktueller OCR-Lösungen finden Sie in dem Artikel OCR in 2023: Benchmarking Text Extraction/Capture Accuracy. Siehe hierzu auch Tipp 4