Dies ist eines von 4838 IT-Projekten, die wir erfolgreich mit unseren Kunden abgeschlossen haben.
Wobei dürfen wir Sie unterstützen?

Weißes Quadrat mit umrandeten Seiten rechts oben

Evaluierung von Airbyte zur Datenintegration im DWH-Umfeld

Dieses IT-Projekt ist Teil unserer Digitalisierung und Optimierung der IT-Landschaft unserer Kunden. Durch gezielte Maßnahmen fördern wir den technologischen Fortschritt, optimieren systemübergreifende Prozesse und schaffen eine nachhaltige Basis für zukünftige Entwicklungen. Unsere IT-Referenzprojekte dienen als Grundlage zur Orientierung. Sie unterstützen die Wiederverwendbarkeit erprobter Konzepte im Rahmen der Projektumsetzung.

Projektdauer: 4 Monate

Kurzbeschreibung

Im Projekt wird Airbyte als CDC-Tool für die Near-Realtime-Replikation relationaler Daten evaluiert, exemplarisch mit einer PostgreSQL-Datenbank auf Google GKE. Ziel ist die Bewertung der Eignung für einen stabilen, hochverfügbaren Einsatz im Data-Warehouse-Umfeld sowie als kostengünstige Alternative zu Fivetran HVR. Dafür werden Connector-Konfigurationen optimiert, die Replikations-Performance unter unterschiedlichen Datenvolumen mittels Lasttests gemessen und die Ressourcenbedarfe der Airbyte-Pods auf GKE analysiert. Zusätzlich werden Parallelisierungsmöglichkeiten der Replikations-Channels untersucht sowie Resilienztests (Netzwerkausfall, Ausfall der Repository-Testdatenbank, Channel-Abbruch) durchgeführt, um den Wiederanlauf und die lückenlose Fortsetzung ab dem letzten Stand zu verifizieren.

Ergänzung

Die Systemumgebung besteht aus einem GKE-Cluster mit Helm-basiertem Deployment von Airbyte sowie einer separaten Repository-Datenbank als Test-Setup für produktionsnahe Bedingungen. Quelle ist PostgreSQL (CDC via WAL/Replication Slot) mit dem Ziel einer replizierten Datenablage zur Bewertung der Datenübernahme und Stabilität. Untersucht werden optimale Connector-Parameter (z. B. Sync-Frequenz, Batch-/Buffering, Checkpointing), Skalierung und Ressourcenzuteilung (CPU/RAM, Pod-Limits/Requests), Auswirkungen unterschiedlicher Parallelität (mehrere Streams/Channels) auf Durchsatz und Node-Auslastung sowie das Verhalten bei Störungen. Es werden kontrollierte Failure-Szenarien erzeugt und geprüft, ob Airbyte automatisch konsistent weiterliest, Retries sauber ausführt und keine Datenlücken bzw. Duplikate entstehen.

Fachbeschreibung

Fachlich adressiert die Evaluierung den Bedarf, operative Daten aus relationalen Quellsystemen zeitnah und zuverlässig für Analytics- und Data-Warehouse-Prozesse bereitzustellen. Der Nutzen liegt in einer schnelleren Datenverfügbarkeit (Near Realtime) für Reporting, Monitoring und datengetriebene Entscheidungen bei gleichzeitig reduzierter Abhängigkeit von proprietären Lösungen. Airbyte wird darauf geprüft, ob es CDC-basierte Replikationsstrecken stabil betreiben kann – auch bei Störungen – und ob es sich in eine hochverfügbare Plattformstrategie einfügt. Zusätzlich wird der wirtschaftliche Vorteil betrachtet: geringere Lizenz- und Betriebskosten gegenüber Fivetran HVR bei vergleichbarem Funktionsumfang für Standard-Replikationsszenarien sowie ein skalierbarer Betrieb auf Kubernetes.

IT-Projektdaten

Projektzeitraum01.09.2025 - 31.12.2025

Kunden, die uns vertrauen

Haben wir Ihr Interesse geweckt?

Marcus Rödiger, ein Mann mit Brille und braunen Haaren

Marcus Rödiger

Head of Consumer Goods & Retail

Jetzt Kontakt aufnehmen

Zum Umgang mit den hier erhobenen Daten informieren wir in unserer Datenschutzerklärung.

Datei herunterladen

Zum Umgang mit den hier erhobenen Daten informieren wir in unserer Datenschutzerklärung.