PDF-Mapping: Wie man PDFs automatisch auslesen kann

PDF ist ein Format, das nicht ohne Weiteres automatisch ausgelesen und weiterverarbeitet werden kann. Aber keine Sorge: Wir zeigen, wie es trotzdem geht!

PDF-Dokumente sind überall. Kein Wunder also, wenn Sie sich fragen: Wie kann ich PDF-Dokumente automatisch auslesen und in mein System einlesen? Eine solche Automatisierung würde Zeit, Kosten und Aufwand sparen – und die Geschwindigkeit und Genauigkeit Ihrer Prozesse erhöhen! Wir zeigen Ihnen, was einer Automatisierung im Weg steht und wie man diese Hindernisse aus dem Weg räumt.

Was ist PDF überhaupt genau? Und warum benutzen wir PDF im Geschäftsleben?

PDF steht für „Portable Document Format“ und ist ein Dateiformat, mit dem Dokumente digital präsentiert und ausgetauscht werden können. Das Besondere dabei: Der Ersteller legt das Format fest, sodass es unabhängig von Software, Hardware und Betriebssystem immer gleich dargestellt wird. Somit können Dokumente jedem Empfänger so angezeigt werden, wie vom Ersteller beabsichtigt. Wo früher ein Papierdokument erstellt, ausdruckt und verschickt wurde, ist PDF die digitale Alternative!

Kein Wunder also, dass so ein praktisches Format im Geschäftsleben zum Industriestandard wurde und so häufig zum Austausch von Informationen verwendet wird wie kaum ein anderes Dateiformat. Egal wo Sie in einem Unternehmen hinschauen, finden Sie PDF-Dokumente: Rechnungen, Aufträge, Verträge, Auftragsbestätigungen, Formulare, Lieferscheine, Präsentationen, Preislisten und viel viel mehr.

Wenn das auch in Ihrer Organisation der Fall ist und Sie wissen wollen, wie man PDF-Dokumente automatisch, zuverlässig und fehlerlos auslesen kann, sind Sie hier an der richtigen Stelle!

Automatisierung gewünscht?

Bei solch einer Masse an PDF-Dokumenten im Unternehmensalltag liegt es nahe, das Aus- und Einlesen von PDF-Dokumenten zu automatisieren. Warum aufwendig bei jeder Bestellung Artikel für Artikel ins ERP-System übertragen? Warum bei jeder Rechnung manuell überprüfen, ob alle Beträge stimmen? Warum jede Auftragsbestätigung nach Änderungen zum Auftrag durchsuchen? Vor allem, wenn man tagtäglich mit Dokumenten nahezu überflutet wird.

Die Vorteile sind vielfältig: Eine Automatisierung spart nicht nur Zeit, Kosten und Aufwand im Gegensatz zur manuellen Erfassung von PDF-Dokumenten. Auch die Fehlerrate in der Datenerfassung kann gesenkt werden, da es zu keinen Zahlendrehern in Bestellnummern oder zu vielen Nullen beim Preis kommt. Schaut man sich die Folgeprozesse an, wird offensichtlich, wie positiv sich das auf die Anzahl von Retouren, Reklamationen oder Zahlungsfehlern auswirken kann. Ihre Geschäftspartner werden es Ihnen danken!

Der gesparte Erfassungsaufwand führt natürlich auch zu schönen Effekten in den Geschäftsprozessen: Dadurch, dass PDFs in Sekundenschnelle ausgelesen werden, kann die Auftragsabwicklung sofort starten. Im Einkauf kann auf Abweichungen in der Auftragsbestätigung umgehend reagiert und die Produktionsplanung angepasst werden. Im Wareneingang kann das Qualitätsmanagement schneller abgeschlossen werden. Die Mitarbeiter, die früher bis zum Hals in Dokumenten geschwommen sind, können sich endlich mehr ihren anderen Aufgaben widmen.

So wünschenswert und vorteilhaft es also ist, Informationen von PDF-Dokumenten automatisch auszulesen und zu verarbeiten – es ist leider gar nicht so einfach!

Belegflut wird durch Automatisierung bewältigt
Wenn Sie mit PDF-Dokumenten nahezu überflutet werden, kann eine Automatisierung der PDF-Verarbeitung eine enorme Erleichtung im Arbeitsalltag darstellen.

Das Problem mit dem automatischen Auslesen von PDF-Dokumenten

PDF-Dokumente haben einen entscheidenden Nachteil: Sie eignen sich nicht gut zum automatischen Austausch von Informationen! Die Informationen aus den PDF-Aufträgen, -Rechnungen und -Formularen werden meistens im ERP-System, in der Buchhaltungssoftware oder in der HR-Plattform benötigt, um dort mit den Daten weiterarbeiten zu können.

Und genau hier liegt der Haken: Die in PDF-Dokumenten gespeicherten Daten liegen unstrukturiert vor. Das bedeutet, es gibt keine Vorgaben, welcher Text die Bestellnummer enthält, wo die Lieferanschrift steht oder wie der Absender gekennzeichnet ist. Letztendlich wird in einer PDF-Datei also nur festgehalten, wo welcher Text oder welches Bild steht – aber nicht was dieser Text bedeutet.

Sie müssen sich diese Informationen selbst zusammensuchen und erschließen. Das kann ein Mensch, ist für eine Maschine aber schwierig. Wie soll sie von sich aus erkennen, welche der Adressen vom Lieferanten und welche vom Kunden ist? Oder was denn nun die Artikelnummer ist? Es gibt Software, die versucht, künstliche Intelligenz für diese Erkennung zu nutzen. Das Problem dabei: Vor allem komplexe Informationen lassen sich so noch nicht zuverlässig erkennen – der Mensch muss helfen und die Verarbeitung überprüfen.

Aber das ist nicht das einzige Problem. Es gibt noch die ganzen Sonderfälle, die eine automatische Verarbeitung von PDF-Dokumenten für Maschinen erschweren:

  • Geschäftspartner senden „abenteuerliche“ PDF-Layouts
  • Wichtige Daten fehlen komplett
  • Artikelnummern müssen selbst aus drei Komponenten zusammengebaut werden
  • Kunden-Artikelnummern müssen zu Lieferanten-Artikelnummern umgewandelt werden
  • Das Lieferdatum liegt im falschen Datumsformat vor, sodass Monat und Tag vertauscht werden
  • Und so weiter und so fort

Gar nicht so einfach, aber trotzdem nicht unmöglich – dank semantischem Auslesen und PDF-Mapping!

Semantisches Auslesen – Was ist das?

Wie also geht das trotzdem mit der Automatisierung? Wie kann ich PDF-Dokumente automatisch, zuverlässig und fehlerlos auslesen?

Es gibt viele Tools und Anwendungen, die aus einem PDF-Dokument ein Word- oder XML-Dokument erstellen können. Diese Werkzeuge extrahieren Formatierungsanweisungen, Schriftarten und Layoutinformationen aus dem PDF und können so darstellen, welcher Text in welchem Font an welcher Stelle auf einer Seite des Dokuments steht (z. B. Der Text 2004789 steht im Font Arial 12pt an der Stelle 120.32,360.98 auf dem Dokument). Das reicht aber leider nicht, um bei PDF-Geschäftsdokumenten wie Bestellungen oder Rechnungen alle wichtigen Informationen automatisch auszulesen und in das ERP-System zu übernehmen. Dafür fehlt die Information, dass 2004789 die Bestellnummer ist.

Um PDF-Dokumente automatisch aus- und einlesen zu können, müssen die Informationen aus dem PDF also in strukturierte Daten umgewandelt werden. Strukturiert bedeutet in diesem Fall, dass jeder Information eine Bedeutung zugeordnet wird. Nach diesem Prinzip werden auch bei EDI Daten ausgetauscht.

Hier kommt das semantische Auslesen ins Spiel. Semantik meint „die Bedeutung oder den Inhalt eines Wortes, Satzes oder Textes“ (vgl. Duden). Wir wollen also Texte aus einem PDF auslesen und mit Sinn befüllen. Der Leser des PDF-Dokuments erkennt diesen Sinn aus dem Zusammenhang mit anderen Informationen auf dem PDF-Beleg. Hier steht z.B. vor oder über dem Text 2004789 noch die Angabe „Bestellnummer“ oder „Nummer“. Für den Leser ist also sofort klar, dass es sich hier um die Bestellnummer handelt.

Genauso wie ein Leser kann durch semantisches Auslesen der Text 2004789 mit der Bedeutung „Bestellnummer“ versehen werden. Diese semantische Erkennung der PDF-Inhalte beschränkt sich natürlich nicht nur auf so einfache Elemente wie die Bestellnummer, sondern ersteckt sich auf alle Daten in einem PDF-Geschäftsdokument. Als Ergebnis erhält man dann eine Folge von Daten wie z.B. Bestellnummer, Bestelldatum, Lieferdatum, aber auch für jede Bestellposition Angaben zur Artikelnummer (Lieferant, Käufer, GLN), Artikelbeschreibung, Bestellmenge und -einheit, Einzelpreis, Gesamtpreis und so weiter. Alle ausgelesenen Daten werden mit einer eindeutigen Bedeutung versehen.

Semantisches Auslesen von PDFs
Die semantische Erkennung von PDF-Inhalten macht ein automatisches Auslesen von PDFs möglich.

PDFs mit PDF-Mapping semantisch auslesen

Okay, wir wissen jetzt, was jede Information auf einem PDF bedeutet. Aber reicht das schon, um PDF-Dokumente automatisch auslesen zu können? Die Antwort, wie Sie sich schon denken können, lautet nein. Neben der Bedeutung müssen wir noch feststellen, wo die Daten auf dem Dokument zu finden sind, wer das Dokument überhaupt gesendet hat, ob alle benötigten Daten vorhanden sind und ob wir die Daten für unsere Bedürfnisse umwandeln müssen.

Semantisches Auslesen alleine reicht also nicht – wir brauchen PDF-Mapping als Gerüst, um PDF-Dokumente vollautomatisch auslesen zu können.

PDF-Mapping kommt nicht umsonst von „Map“, dem englischen Wort für eine Karte. Genau wie beim Erstellen einer Landkarte mit Städten und Straßen wird beim PDF-Mapping eine Art „Landkarte“ mit Daten aus dem PDF erstellt. Während Google Maps so das Layout unserer Welt erfasst, dokumentiert PDF-Mapping das Layout einer PDF-Datei.

Das ist sinnvoll, denn im Geschäftsleben verwendet jedes Unternehmen in der Regel ein festes Layout für einen PDF-Dokumenttypen. So sieht jeder PDF-Auftrag von Kunde A im Grunde gleich aus und unterscheidet sich nur im Inhalt. Die Artikelpositionen sind z. B. in einer Tabelle angeordnet, wo die Artikelnummer links steht und daneben die Artikelbeschreibung, Menge, Bestelleinheit und Preisinformationen. Die Artikel und ihre Informationen ändern sich von Auftrag zu Auftrag – aber sie stehen immer in derselben Ordnung.

Wenn wir das PDF-Layout kennen, können wir mit PDF-Mapping also alle PDF-Dokumente mit diesem Layout automatisch auslesen. Auch hier bietet sich der Vergleich mit Google Maps an. Nehmen wir die Routenplanung: Am eigentlichen Layout der Welt ändert sich auch nicht viel, am Inhalt aber schon. Die Anwendung stellt uns zum Beispiel dynamisch dar, wie viel Verkehr auf welchen Straßen fließt.

Genauso wie der Mensch die ganze Welt kartografiert hat, können Sie mit PDF-Mapping alle Layouts Ihrer eingehenden PDF-Dokumente kartografieren. Das lohnt sich vor allem bei den Layouts, deren PDF-Dokumente Sie immer und immer wieder zugesendet bekommen.

PDF-Mapping vs. Google Maps
PDF-Mapping erstellt eine “Landkarte” des PDF-Layouts ähnlich wie Google Maps das Layout von New York City erfasst hat.

Eine Software mit PDF-Mapping und semantischem Auslesen

So weit, so gut! Um es in einigen wenigen Worten zusammenzufassen: Während semantisches Auslesen die PDF-Daten mit einer Bedeutung versieht, findet PDF-Mapping diese Daten zuverlässig anhand des PDF-Layouts auf jedem passenden PDF-Dokument. Das Ergebnis beider Techniken ist eine strukturierte Ordnung der PDF-Daten – fast genauso wie wir Sie für unsere ERP-Systeme, Buchhaltungssoftwares oder HR-Plattformen brauchen!

Aber warum nur „fast“? Erinnern Sie sich noch an die Sonderfälle von vorhin? Was, wenn Daten fehlen oder verändert werden müssen? Stichwort: Falsches Datumsformat oder Umwandlung der Artikelnummern. Und wie bekomme ich die strukturierten Daten dann überhaupt in mein ERP-System?

Mit unserer passend benannten Softwareanwendung PDF-Mapper lässt sich der komplette Prozess rund um das semantische Auslesen und PDF-Mapping umsetzen, ergänzt um weitere automatisierte Prozessschritte wie PDF-Input, Datenaufbereitung, Datenvalidierung und Export. Dadurch lassen sich auch alle Sonderfälle der PDF-Verarbeitung zuverlässig lösen, sodass Sie sich entspannt zurücklehnen können.

Durch das einmalige semantische Auslesen und PDF-Mapping eines PDF-Layouts lässt sich mit dem PDF-Mapper eine vollständige Automatisierung der PDF-Dokumentenverarbeitung erreichen. Nach der Einrichtung funktioniert der PDF-Mapper wie ein automatischer Konverter. PDF-Daten werden so strukturiert ausgelesen, als wären sie bereits in einem der zahlreichen EDI- (Electronic Data Interchange) oder XML-Formate übermittelt worden. Diese Formate wurden speziell für den fehlerlosen und direkten Informationsaustausch zwischen Maschinen entwickelt.

So werden PDF-Geschäftsdokumente wie Aufträge, Rechnungen, Lieferscheine, Auftragsbestätigungen, Zahlungsavise oder Preisabschlüsse automatisch ausgelesen, aufbereitet und in die gewünschte Software importiert.

PDF-Mapper Verarbeitung
Der PDF-Mapper nutzt semantisches Auslesen und PDF-Mapping, um PDFs vollautomatisch auszulesen.

Wie genau funktioniert der PDF-Mapper?

Das hört sich spannend an? Sie möchten erfahren, wie PDF-Mapping und semantisches Auslesen im PDF-Mapper umgesetzt werden? Und wie genau die zahlreichen Sonderfälle im PDF-Mapper in einem zuverlässigen, mächtigen Prozess gelöst werden können?

Lesen Sie mehr im zweiten Teil unserer Serie zum PDF-Mapping oder überzeugen Sie sich selbst und laden Sie den PDF-Mapper herunter!

Schreibe einen Kommentar