Dies ist eines von 4812 IT-Projekten, die wir erfolgreich mit unseren Kunden abgeschlossen haben.
Wobei dürfen wir Sie unterstützen?

Weißes Quadrat mit umrandeten Seiten rechts oben

Entwicklung eines KI-Sprachmodells zum Extrahieren von Adressinformationen

Dieses IT-Projekt ist Teil unserer Digitalisierung und Optimierung der IT-Landschaft unserer Kunden. Durch gezielte Maßnahmen fördern wir den technologischen Fortschritt, optimieren systemübergreifende Prozesse und schaffen eine nachhaltige Basis für zukünftige Entwicklungen. Unsere IT-Referenzprojekte dienen als Grundlage zur Orientierung. Sie unterstützen die Wiederverwendbarkeit erprobter Konzepte im Rahmen der Projektumsetzung.

Projektdauer: 1 Jahr, 2 Monate

Kurzbeschreibung

Ziel des Projektes ist die Untersuchung der Fragestellung, welche Ansätze sich eignen, um automatisiert aus Texteingaben die Bestandteile einer Anschrift bzw. Adresse zu extrahieren. Von besonderem Interesse sind hierbei KI Sprachmodelle aus dem Bereich Deep Learning. Die PTA prüft den Stand der Technik (state of the art) und identifiziert in Frage kommende Verfahren auf Basis neuronaler Netze. Mit Hilfe synthetischer Testdatensätzen und Metriken evaluiert die PTA verschiedene Ansätze und Architekturen mit dem Ziel, geeignete Verfahren für Kundeneinsatz zu identifizieren.

Ergänzung

Zur Wahrung des Datenschutzes generiert die PTA auf Grundlage einer Straßenabschnittsdatei und diverser Namenslisten (Vor- & Nachname, Firmenbezeichnung) synthetische Empfängeradressen. Um einen realistischen Datensatz zu erstellen, werden einerseits die Adressbestandteile zufällig angeordnet, wobei sich hierbei an übliche Muster orientiert wird, und andererseits zufällig Rechtschreibfehler erzeugt. Bspw. werden mit einer gewissen Wahrscheinlichkeit Buchstaben entfernt od. vertauscht. Die PTA entwickelt mit dem Python Framework PyTorch Sequence-to-Sequence (Seq2Seq) Sprachmodelle und unterzieht diese einem Benchmark auf Grundlage des zuvor generierten synthetischen Testdatensatzes. Modelle basierend auf der Seq2Seq Architektur bestehen im wesentlichen aus zwei Komponenten, einem Encoder und einem Decoder. Während es die Aufgabe des Encoders ist, den Eingabetext zu verstehen, ist es die Aufgabe des Decoders die Bestandteile des Eingabetextes mit den entsprechenden Tags (Name, Straße, Ort,…) zu annotieren.

Fachbeschreibung

Ein zentraler Bestandteil des Geschäftsmodells des Kunden basiert auf der Verarbeitung von Anschrift- bzw. Adressdaten. Über diverse Eingangskanäle und Schnittstellen werden die Empfängeradressen an den Kunden übermittelt. Es kommt nicht selten vor, dass Teile der Empfängeradressen (Anrede, Vorname, Nachname, Firmenname, Straße, Hausnummer, Hausnummernzusatz, Postleitzahl, Ort und Ortsteil) fehlerhaft sind und bspw. vertauscht wurden. Gründe hierfür sind i. d. R. fehlerhafte Eingaben beim Bestellvorgang bzw. eine fehlende Adressvalidierung beim Auftraggeber des Kunden. Fehlerhafte Adressen führen häufig dazu, dass Sendungen falsch sortiert werden und somit nicht zum vorgesehenen Zielstandort transportiert werden. Außerdem erschweren sie die Tourenplanung beim Zustellprozess, da die Tourenplanung auf Basis der Geokoordinaten einer Adresse erfolgt. Die Geokoordinaten lassen sich häufig nur dann korrekt ermitteln, wenn die einzelnen Bestandteile einer Anschrift korrekt erkannt wurden.

IT-Projektdaten

Projektzeitraum01.01.2023 - 29.02.2024

Kunden, die uns vertrauen

Haben wir Ihr Interesse geweckt?

Marcus Rödiger, ein Mann mit Brille und braunen Haaren

Marcus Rödiger

Head of Consumer Goods & Retail

Jetzt Kontakt aufnehmen

Zum Umgang mit den hier erhobenen Daten informieren wir in unserer Datenschutzerklärung.

Datei herunterladen

Zum Umgang mit den hier erhobenen Daten informieren wir in unserer Datenschutzerklärung.