18. Januar 2024

Ohne valide Datenbasis keine professionelle KI

Die Datenaufbereitung ist alles andere als trivial

Ohne Daten vermag eine Künstliche Intelligenz nichts. Ein Grundsatz, den das breite Spektrum heutiger und künftiger KI-Anwendungsszenarien klar verdeutlicht. Im B2B-Umfeld ist vor allem eines bedeutsam: maschinell erzeugte Daten, die valide und in hoher Menge verfügbar sind. Ein Unterfangen, bei dem es Vieles zu berücksichtigen gilt.

Natürlich hinkt der Vergleich von KI mit dem menschlichen Gehirn, aber an dieser Stelle macht er deutlich, worum es geht: Das Gehirn eines Neugeborenen ist genauso aufgebaut und ähnlich komplex wie das eines Erwachsenen. Aber erst durch Sinneseindrücke und Wahrnehmung von außen – also durch Daten – wachsen und vernetzen sich die Synapsen, sodass das Neugeborene lernt. Und zwar mit enormer Geschwindigkeit. In der Folge verdoppelt sich das Gewicht des Gehirns im ersten Lebensjahr eines Menschen.

Ohne Training geht nichts

Auch eine Vielzahl von KI-Algorithmen nehmen ihre Aufgaben nur einigermaßen verlässlich wahr, wenn sie mit sehr vielen Daten gefüttert werden. Das ist deshalb so, weil im Bereich Machine Learning (ML) jeder Algorithmus danach strebt, eine möglichst enge Korrelation zwischen Input, also den Daten, und Output zu erzeugen. Anders ausgedrückt: Ein Algorithmus, der Millionen unterschiedliche Katzenbilder analysiert hat, erkennt ein neues Bild einer Katze auch in ungewöhnlichen Umgebungen oder Haltungen mit hoher Wahrscheinlichkeit als solches. Je mehr unterschiedliche Katzenarten er in seiner „Trainingsphase“ gesehen hat, desto zuverlässiger kann er auch bei neuen Katzenbildern die Arten auseinanderhalten und benennen. Vorausgesetzt er hat korrekte  und korrekt zugeordnete Daten als Input bekommen. Ein Algorithmus, der nicht viele Bilder von beispielsweise Angora-Katzen richtig in diese Art einsortiert als Input bekommen hat, kann nie das Bild einer Angora-Katze als eine solche identifizieren. Es kommt somit ganz entscheidend darauf an, dass er entsprechend und richtig trainiert wird.

Nur validierte Daten erzeugen richtige Ergebnisse …

Das gilt für sehr viele Algorithmen. In den letzten Monaten war zum Beispiel davon die Rede, das KI heute Hautkrebs zuverlässiger erkennt als Ärzte selbst. „Die Künstliche Intelligenz war deutlich besser als die durchschnittliche Leistung der Ärzte“, berichtet Holger Hänßle, Professor für Dermatologie an der Universitätsklink Freiburg in der Tageszeitung „Die Welt“. Für den Versuch war ein künstliches neuronales Netz mit 100.000 Fotos trainiert worden. Die Bilder zeigten entweder richtig diagnostizierten schwarzen Hautkrebs oder harmlose Muttermale. Der Algorithmus wurde darauf trainiert, den Unterschied zu erkennen. Und er erkannte ihn signifikant besser als weltweit hochangesehene Fachärzte. Von 58 dieser Top-Spezialisten waren nur 13 besser als die KI. Ein anderes Beispiel ist die Spracherkennung. Auch hier müssen die Algorithmen anhand korrekter Worte und Laute trainiert werden, damit Sprachassistenten wie Siri oder Alexa die Worte der Nutzer richtig verstehen.

… also merke: Wer Falsches lernt, zieht falsche Schlüsse

Das heißt KI-Algorithmen müssen nicht nur mit vielen, sondern vor allem mit korrekten Daten gefüttert werden, um zu guten Ergebnissen zu kommen. Hier noch einmal die Analogie zum Menschen. Wenn wir etwas Falsches lernen, kommen wir auch zu fehlerhaften Schlüssen.

Diese korrekten Trainingsdaten in ausreichender Menge zu bekommen, ist nicht ganz trivial. Die Daten lagern häufig in Einzelsilos, oft weiß niemand ganz genau, ob und auf welche Weise die Daten in der Vergangenheit verändert wurden, oder von wem sie genau stammen. Das gilt natürlich in ganz besonderer Weise für Daten, die von außen kommen. Dabei muss es keineswegs um hochsensible Gesundheits- oder Diagnosedaten gehen. Einfache Angaben zum Abverkauf eines Produktes oder zum Betriebszustand einer Maschine können nachträglich vereinheitlicht worden oder im Fall von Umsatzangaben für eine bestimmte Statistik leicht nach oben korrigiert worden sein, damit die Grafik besser aussieht. Resultat: Die Daten stimmen nicht mehr und sind für eine Analyse nicht mehr zu gebrauchen. Wenn sie trotzdem benutzt werden, sind die Ergebnisse – zum Beispiel Verkaufsprognosen – falsch. Wir erinnern uns: Jeder KI-Algorithmus will seinen Output möglichst eng mit dem Input korrelieren.

Möglichkeiten, die Datenbasis für KI zu verbessern

Natürlich ist Datenqualität keine neue Herausforderung. Inkorrekte Stammdaten zum Beispiel führen schon seit jeher zu inkorrekter Buchhaltung und Rechnungslegung. Aber auch inkorrekte Bewegungsdaten verursachen immer noch diverse Probleme, von unzufriedenen Kunden über falsch eingestellte Maschinen bis hin zu fehlerhaften Analysen und Prognosen. Wenn wir uns nun vorstellen, was fehlerhafte Daten in Zusammenhang mit KI im schlimmsten Fall anrichten, kann einem schon etwas bange werden. Schließlich teilautomatisieren KI-Anwendungen zunehmend auch menschliche Entscheidungen.

Damit Unternehmen ihre Algorithmen mit korrekten Daten füttern können, die auch so aggregiert sind, dass sie in den relevanten KI-Systemen einzuspeisen sind, gibt es immer mehr Anbieter, die professionelle Unterstützung bei der Datenaufbereitung (Data Preparation) anbieten.

Neun Schritte zur validen Datenbasis

Es ist dabei grundsätzlich empfehlenswert, die neun folgenden Schritte einzuhalten:

  1. Eliminieren oder Korrigieren von falschen Daten und Duplikaten: Es gibt vermehrt schmutzige Daten im Unternehmensumfeld. Sie sind fehlerhaft, unvollständig oder mehrfach vorhanden. Diese schmutzigen Daten verunreinigen die Resultate von KI-Modellen, wenn sie nicht korrigiert oder entfernt werden.
  2. Standardisierung und Formatierung von Daten: Wie viele unterschiedliche Wege gibt es, Namen und Adressen oder andere Informationen in Datenbanken zu speichern? Unter wie vielen Bezeichnungen und in welchen Tabellen werden sie gespeichert? Metadaten-Repositories und Datenkataloge müssen eingeführt und entsprechend gepflegt werden. Bild- oder Tondaten werden in den unterschiedlichsten Formaten und Qualitäten gespeichert. Um sie für die Algorithmen des Machine Learning zugänglich zu machen, müssen sie zudem vereinheitlicht werden.
  3. Veraltete Informationen aktualisieren: Auch wenn Daten korrekt und im richtigen Format gespeichert wurden, sind sie eventuell nicht mehr aktuell. ML-Algorithmen können nicht richtig trainiert werden, wenn sich relevante und nicht relevante beziehungsweise veraltete Daten mischen.
  4. Verbessern und anreichern von Daten: Mitunter reichen die Daten aus dem Unternehmen nicht aus, um Machine-Learning-Modelle ausreichend zu füttern. Dann werden zusätzliche Daten zum Beispiel aus Berechnungsfeldern oder aus externen Quellen nötig.
  5. Rauschen reduzieren: Bilder, Text und Daten können „Rauschen“ enthalten. Dabei handelt es sich um fremdartige Informationen, zum Beispiel Pixel, die dem Algorithmus nicht weiterhelfen. Leistungsfähige Tools für die Data Preperation reduzieren dieses Rauschen.
  6. Anonymisieren und neutralisieren von Daten: Alle personalisierten und personalisierbaren Daten müssen aus den Datensätzen entfernt oder anonymisiert bzw. pseudoanonymisiert werden. Außerdem ist es erforderlich, Datensätze zu eliminieren, welche die Algorithmen einseitig beeinflussen. Ein Beispiel: Wenn die ideale Führungskraft mit Hilfe eines ML-Algorithmus gesucht wird, der echte Daten benutzt, die das Geschlecht der Führungskraft berücksichtigen, wird sich das ML in erster Linie Männer auswählen. Ganz einfach, weil in den meisten Unternehmen die oberen Führungsebenen mehrheitlich von Männern besetzt sind. Also müssen die Daten entweder um das Geschlechtsmerkmal bereinigt oder das Merkmal Frau stärker gewichtet werden.
  7. Normalisierung von Daten: Wer die Daten in seinen Datenbanken normalisiert, erhält redundanzfreie Datensätze, befreit sie von Anomalien und strukturiert diese klar. Das hilft einer KI zu besseren Ergebnissen zu kommen.
  8. Auswahl von Daten bereitstellen: Wenn es um sehr große Datensätze geht, müssen die Verantwortlichen Ausschnitte für das Training der KI auswählen. Dabei muss sichergestellt werden, dass diese Ausschnitte die Datengesamtheit möglichst genau repräsentieren.
  9. Merkmale verstärken: ML-Algorithmen werden auf bestimmte „Merkmale“ in den Daten trainiert. Um das anhand des gewählten Beispiels eines Hautkrebs-Screenings zu erläutern: Zum Beispiel muss auf die Unregelmäßigkeit in der Form von Melanomen geachtet werden. Tools für Data Preparation können die Daten betonen und die Sichtbarkeit der Merkmale verbessern, anhand derer die Algorithmen trainiert werden.

Datenaufbereitung nicht unterschätzen

Diese Handlungsempfehlung macht deutlich, dass es für Unternehmen sehr aufwändig ist, diese Schritte zu durchlaufen. Doch sie sind unverzichtbar, wollen Unternehmensverantwortliche valide Daten in der notwendigen Menge erhalten, um eine solide Basis für ihre KI-Vorhaben zu legen. Das amerikanische Research-Unternehmen Cognilytica Research gibt in einer entsprechenden Untersuchung an, dass in KI-Projekten 80 Prozent der Zeit mit der Vorbereitung der Daten verbracht wird. Diese Zahl verdeutlicht, wie wichtig die Qualität der Datenbasis für die Zuverlässigkeit und Genauigkeit eines solchen Projektes ist.

Haben wir Ihr Interesse geweckt? Nehmen Sie gerne direkt mit uns Kontakt auf:

Dr. Frank Gredel

Head of Business Development

Ähnliche Beiträge

Spendenaktion 2023

Wie in jedem Jahr spenden wir als PTA-Gruppe erneut für einen guten Zweck. Getreu unserer Vision haben wir uns dieses Jahr entschieden, zwei wegweisende Initiativen zu unterstützen.

Mehr erfahren

Jetzt Kontakt aufnehmen

Datei herunterladen