Dies ist eines von 4558 IT-Projekten, die wir erfolgreich mit unseren Kunden abgeschlossen haben.

Wobei dürfen wir Sie unterstützen?

Entwicklung eines KI-Sprachmodells zum Extrahieren von Adressinformationen

Projektdauer: 1 Jahr, 2 Monate

Kurzbeschreibung

Ziel des Projektes ist die Untersuchung der Fragestellung, welche Ansätze sich eignen, um automatisiert aus Texteingaben die Bestandteile einer Anschrift bzw. Adresse zu extrahieren. Von besonderem Interesse sind hierbei KI Sprachmodelle aus dem Bereich Deep Learning. Die PTA prüft den Stand der Technik (state of the art) und identifiziert in Frage kommende Verfahren auf Basis neuronaler Netze. Mit Hilfe synthetischer Testdatensätzen und Metriken evaluiert die PTA verschiedene Ansätze und Architekturen mit dem Ziel, geeignete Verfahren für Kundeneinsatz zu identifizieren.

Ergänzung

Zur Wahrung des Datenschutzes generiert die PTA auf Grundlage einer Straßenabschnittsdatei und diverser Namenslisten (Vor- & Nachname, Firmenbezeichnung) synthetische Empfängeradressen. Um einen realistischen Datensatz zu erstellen, werden einerseits die Adressbestandteile zufällig angeordnet, wobei sich hierbei an übliche Muster orientiert wird, und andererseits zufällig Rechtschreibfehler erzeugt. Bspw. werden mit einer gewissen Wahrscheinlichkeit Buchstaben entfernt od. vertauscht. Die PTA entwickelt mit dem Python Framework PyTorch Sequence-to-Sequence (Seq2Seq) Sprachmodelle und unterzieht diese einem Benchmark auf Grundlage des zuvor generierten synthetischen Testdatensatzes. Modelle basierend auf der Seq2Seq Architektur bestehen im wesentlichen aus zwei Komponenten, einem Encoder und einem Decoder. Während es die Aufgabe des Encoders ist, den Eingabetext zu verstehen, ist es die Aufgabe des Decoders die Bestandteile des Eingabetextes mit den entsprechenden Tags (Name, Straße, Ort,…) zu annotieren.

Fachbeschreibung

Ein zentraler Bestandteil des Geschäftsmodells des Kunden basiert auf der Verarbeitung von Anschrift- bzw. Adressdaten. Über diverse Eingangskanäle und Schnittstellen werden die Empfängeradressen an den Kunden übermittelt. Es kommt nicht selten vor, dass Teile der Empfängeradressen (Anrede, Vorname, Nachname, Firmenname, Straße, Hausnummer, Hausnummernzusatz, Postleitzahl, Ort und Ortsteil) fehlerhaft sind und bspw. vertauscht wurden. Gründe hierfür sind i. d. R. fehlerhafte Eingaben beim Bestellvorgang bzw. eine fehlende Adressvalidierung beim Auftraggeber des Kunden. Fehlerhafte Adressen führen häufig dazu, dass Sendungen falsch sortiert werden und somit nicht zum vorgesehenen Zielstandort transportiert werden. Außerdem erschweren sie die Tourenplanung beim Zustellprozess, da die Tourenplanung auf Basis der Geokoordinaten einer Adresse erfolgt. Die Geokoordinaten lassen sich häufig nur dann korrekt ermitteln, wenn die einzelnen Bestandteile einer Anschrift korrekt erkannt wurden.

Überblick

Projektzeitraum01.01.2023 - 29.02.2024

Haben wir Ihr Interesse geweckt?

Jetzt Kontakt aufnehmen

Datei herunterladen