Organisationen, die KI-Projekte in Angriff nehmen, können nicht auf langfristige Datenzentralisierungsprojekte warten. Sie müssen in der Lage sein, hochwertige Daten, wo immer sie sich befinden, so schnell wie möglich zu integrieren, damit ihre KI-Tools kontextuell genaue Ergebnisse liefern können, die Erkenntnisse aus den aktuellsten Daten nutzen.
Veraltete und umständliche Methoden zur Datenextraktion und -kopierung aus mehreren Quellen an einen zentralen Ort, um sie von KI-Tools verarbeiten zu lassen, sind unnötig und verbrauchen erhebliche technische und finanzielle Ressourcen.
Das Aufkommen der Datenrepatriierung: Verlagerung von der Cloud ins eigene Rechenzentrum
Für viele Organisationen ist die Bewegung von Daten aus Cloud-basierten Speichern hin zu On-Premises-Systemen in vollem Gange. Dies wird als Datenrepatriierung bezeichnet. Mit dem Anstieg des Datenvolumens, das Unternehmen erzeugen und austauschen, sind auch die Kosten für das Datenmanagement gestiegen. Selbst bei wenigen Cent pro Gigabyte summieren sich die Kosten schnell.
Bill Burnham, CTO für den US Public Sector bei Hewlett Packard Enterprise, merkt an, dass die Kosten „astronomisch“ wachsen können, wenn Organisationen beginnen, Petabytes an Daten zu verarbeiten. Die Rückführung von Daten in interne Speicherlösungen, insbesondere bei KI-Anwendungen, bei denen neue Daten genutzt werden, um Ergebnisse zu verfeinern und zu aktualisieren, ist wirtschaftlich sinnvoll.
Aus operationeller Sicht ist es ideal, Daten so nah wie möglich an dem Ort zu speichern, an dem sie verwendet werden. Cloud-basierte Systeme bieten viele Vorteile, sind aber nicht für jedes Problem die Lösung. Beim Training von KI-Modellen ist es entscheidend, dass diese Zugriff auf die aktuellsten und genauesten Daten haben.
Schutz von KI-Daten und -Ergebnissen
Forschungen von Gartner zeigen, dass Fehlkonfigurationen von Cloud-Diensten ein erhebliches Problem darstellen, das dazu führen kann, dass sensible Daten von nicht autorisierten KI-Modellen verarbeitet werden. Ebenso wie Endnutzer gewarnt werden, dass übermittelte Abfragen an öffentliche generative KI-Dienste verwendet werden können, gilt dies für alle offengelegten Daten.
Auch On-Premises-Systeme sind nicht vor Datenpannen gefeit, aber das Risiko, dass ein nicht autorisiertes KI-Modell auf Unternehmensdaten zugreift und dadurch geistiges Eigentum verloren geht, kann verringert werden.
Ungenaue Ergebnisse von KI-Modellen sind weiterhin ein großes Problem. Aktuelle Beispiele, wie Googles KI, die vorschlägt, Kleber zu verwenden, damit Käse auf Pizza bleibt oder jeden Tag einen Stein zu essen als Quelle für Vitamine und Mineralien, zeigen, wie wichtig es ist, LLMs mit geeigneten und kontextbezogenen Daten zu füllen. Indem Sie Ihre eigenen Daten nutzen und diese schnell und kosteneffizient zur Verfügung stellen, verringern Sie das Risiko irreführender oder fehlerhafter Ergebnisse.
Die Bedeutung kontextbezogener Daten für die Genauigkeit von KI
Die Wichtigkeit kontextbezogener Informationen kann nicht genug betont werden. Die besten Daten, die Ihre Organisation für KI-Tools verwenden kann, sind solche, die sich speziell auf Ihre Handlungen beziehen.
Für Bekleidungshändler sind Daten über die bedienten Zielgruppen entscheidend. Ein Bekleidungsgeschäft, das sich auf Frauen im Alter von 16 bis 25 Jahren spezialisiert, benötigt andere Daten als Läden, die Anzüge an Männer zwischen 35 und 50 verkaufen.
KI-Modelle, die allgemeine Daten übernehmen und die spezifischen Bedürfnisse des Unternehmens nicht verstehen, können Ergebnisse liefern, die zu schlechten Entscheidungen führen. Während Beispiele wie das Festkleben von Käse auf Pizza amüsant sind, kann es für einen Einkäufer einer Handelskette teuer oder gar katastrophal sein, tausende Kleidungsstücke zu bestellen, die am Ende nicht gekauft werden.
So holen Sie Ihre KI ins eigene Haus (On-Prem)
Daten möglichst nahe am Verwendungsort für KI zu halten, reduziert Komplexität und Kosten. KI-Projekte hängen stark von den Daten ab, die zum Trainieren des Modells verwendet werden. Hochwertige, zeitnahe Daten sind wertvoller als zusätzliche Datenwissenschaftler. Organisationen müssen die für ihre Modelle genutzten Daten priorisieren und zugänglich machen.
Der übliche Ansatz zur Verwaltung von Daten für KI-Anwendungen beruht darauf, Daten von der Quelle zu kopieren, um sie für das Training der Modelle verwenden zu können. Allerdings ist es eine Herausforderung, die besten Daten zugänglich zu machen, wenn diese auf mehreren Plattformen verteilt sind, etwa in einer Cloud-basierten CRM-Lösung, einer internen Finanzplattform und Online-Produktivitätstools. Oft wird dann nur auf die Daten zurückgegriffen, die sich am einfachsten zentralisieren lassen, während der Rest auf einen Zeitpunkt mit mehr Budget und Zeit verschoben wird.
Die entscheidende Frage, die sich KI-Teams stellen müssen, ist, wie sie Zugriff auf alle benötigten Daten erhalten können, ohne auf kostspielige und zeitaufwändige Projekte zur Datenrückführung warten zu müssen. Sie benötigen eine einfache Möglichkeit, auf verstreute Daten an mehreren Standorten zuzugreifen und die Abfragen, mit denen auf diese Daten zugegriffen wird, umzuleiten, wenn die Daten verschoben werden.
Tools zur Datenvorbereitung können Daten für die Aktivierung von KI aufbereiten und gleichzeitig die Störungen während der Datenrückführung minimieren. Mithilfe dieser neuen hochmodernen Ansätze können KI-Projekte schnell vorangetrieben werden, ohne auf Datenmigration oder die Notwendigkeit erheblicher Systemumstrukturierungen warten zu müssen. Trainingsdaten können nahezu in Echtzeit zu KI-Modellen und LLMs gebracht werden, sobald sie erstellt werden.
KI-Projekte mit lokalen Data Hubs beschleunigen
Steigende Kosten, Sorgen bezüglich des Abflusses von geistigem Eigentum sowie größere Agilität bei der Entwicklung von KI-Tools treiben den Wandel von Cloud-basierten Plattformen hin zu lokalen Lösungen voran. KI und LLMs benötigen Zugriff auf hochwertige, kontextbezogene und aktuelle Daten, um die besten Ergebnisse für Benutzer zu liefern.
Ein KI-Datenhub, der als zentrale Arbeitsplattform und Governance-Zone für alle KI- und Datenintegrationsprojekte dient, ermöglicht die Beschleunigung von KI-Projekten parallel zu Cloud-Rückführungsprojekten, sodass Unternehmen ihre Daten schnell nutzen können.
Gleichzeitig können sie den Geschäftsanwendern weiterhin bessere Kundeneinblicke und fortschrittliche Analysen bieten, um Umsätze zu steigern und Wettbewerber in einem äußerst wettbewerbsintensiven Geschäftsumfeld zu übertreffen.
Abonnieren Sie den CTO Club Newsletter für weitere KI-Einblicke und Best Practices.
