2024/7 | Fachbeitrag | Künstliche Intelligenz / Robotic

Wie Unternehmen ihre Daten für generative KI optimieren

von Gregor Bieler

Die Markteinführung von OpenAI ChatGPT hat eine wahre Welle der Begeisterung für generative künstliche Intelligenz (KI), insbesondere für Large Language Models (LLMs) ausgelöst - und ein Ende ist nicht abzusehen. Fast täglich entstehen neue Produkte, Unternehmen und Angebote im Bereich der generativen KI. Auch Unternehmen setzen zunehmend auf LLMs, um sich wettbewerbs- und zukunftsfähig aufzustellen. Viele Führungskräfte vernachlässigen jedoch eine wichtige Komponente einer erfolgreichen generativen KI-Strategie: die so genannte Data Readiness.

^{Bildquelle: (C) Gerd Altmann / Pixabay}

Dies bestätigt auch eine Studie von Cognizant, die unter Geschäfts- und Technologieentscheidern großer Unternehmen in den USA und Großbritannien durchgeführt wurde. Demnach haben fast zwei Drittel (74 Prozent) der Führungskräfte noch keine Vorstellung davon, wie sie ihre Daten integrieren und generative KI über ihre Legacy-Anwendungen und Multi-Cloud-Umgebungen hinweg verwalten sollen.

Warum Daten wichtig sind

Künstliche Intelligenz begleitet uns schon seit einigen Jahren. Neu an der generativen KI ist, dass sie Dinge wie Texte, Bilder, Audio, Video, Softwarecode usw. erzeugen kann. Im vergangenen Jahr verblüfften Modelle wie ChatGPT oder Dall-E die Welt, indem sie fehlerfreie Originalprosa schrieben, flüssige Gespräche führten und sogar fantastische visuelle Kunstwerke produzierten. Zahlreiche Futuristen und Wirtschaftsexperten sagten damals einen tiefgreifenden, wenn auch simplen Einfluss dieses Durchbruchs auf die Zukunft der Arbeit voraus: "Kreative" Aufgaben, die heute noch von Menschen ausgeführt werden, sollten schon bald kostengünstiger und effizienter von generativer KI erledigt werden.

Einige Monate später hat sich jedoch ein komplexeres Bild ergeben: LLMs sind - zumindest bisher - stärker auf menschliche Eingaben und Überwachung angewiesen als ursprünglich angenommen. Auch im Unternehmenskontext setzt sich zunehmend die Erkenntnis durch, dass es beim Einsatz von generativer KI nicht einfach darum geht, eine Lizenz zu erwerben oder ein LLM zu bauen und dann den "Start"-Knopf zu drücken.

Um das einzigartige Potenzial der generativen KI für ein bestimmtes Unternehmen ausschöpfen zu können, benötigt die KI Zugang zu den proprietären Datensätzen, die jedes moderne Unternehmen einzigartig machen. In der Umfrage wurden proprietäre/interne Datensätze als die am häufigsten genannten Datensätze (72 Prozent) für den effizienten Betrieb von KI-Modellen ermittelt, gefolgt von validierten Datensätzen (45 Prozent) oder Datensätzen von Dritten (43 Prozent).

Zwei Modelle zur Integration von generativer KI

Bisher haben sich zwei Hauptansätze für die Integration von KI mit proprietären Unternehmensdaten herauskristallisiert, die jeweils ihre eigenen Vor- und Nachteile haben:

Benutzerdefinierte LLMs: Bei diesem Ansatz wird entweder ein Foundational Model (FM) oder ein allgemeines, universelles LLM verwendet. Die Modelle werden angepasst und mit eigenen Daten trainiert ("Fine-Tuning"), um neue anwendungsspezifische LLM- und/oder KI-Werkzeuge zu erstellen. Der Prozess des Fine-Tunings - insbesondere bei Techniken wie Reinforcement Learning from Human Feedback (RLHF) - erfordert menschlichen Input und kann daher zeit- und ressourcenintensiv sein. Auch nach der Fertigstellung müssen die neuen Werkzeuge ständig überwacht ("Human in the loop"), verbessert und gewartet werden. Für Unternehmen mit speziellen Nischenanforderungen und den Ressourcen für eine längerfristige Investition ist die Feinabstimmung des FM mit eigenen Daten ein aufwendiger, aber notwendiger Weg in die Zukunft.
Standard- LLMs kombiniert mit Retrieval Augmented Generation (RAG): Eine schnellere und kostengünstigere Lösung besteht darin, ein bestehendes LLM zu verwenden und ihm den Zugriff auf proprietäre Daten zu ermöglichen. In diesem Fall behält das Modell seine "generischen" Kernprozesse bei, ergänzt aber seine Ausgabe mit Informationen, die spontan aus proprietären Datenbanken abgerufen werden. Der RAG-Ansatz ist nicht nur schnell und kostengünstig, sondern auch flexibler als ein benutzerdefiniertes LLM. Änderungen in den Daten können in Echtzeit in den Ergebnissen widergespiegelt werden, ohne dass das gesamte Modell neu trainiert werden muss. Aber auch hier gilt, dass die Qualität des Modellergebnisses und seiner Gesamtfunktionalität begrenzt wird durch die Qualität und Zugänglichkeit der Daten, mit denen es arbeiten muss.

Datenqualität als Schlüsselfaktor

Unabhängig davon, welchen Ansatz ein Unternehmen für seine Strategie der generativen KI wählt, sind die Erfolgsaussichten eng mit der Qualität der bestehenden Datenarchitektur in den folgenden Schlüsselbereichen verknüpft:

Katalogisierung und Metadaten: Daten allein machen noch keinen Sinn - auch nicht für das weit verzweigte neuronale Netz eines modernen LLM. Die erste Säule der Data Readiness ist daher die Organisation der Daten in einem zentralen Repository mit umfassenden Metadaten. Die Metadaten wiederum beschreiben Quelle, Struktur, Inhalt und im Idealfall auch die Bedeutung. LLMs sollen also bald als eine Art Agent für menschliche Nutzer:innen fungieren und Antworten und Ergebnisse auf natürlichsprachliche Anfragen und Anweisungen liefern. Dazu benötigen sie nicht nur Zugriff auf alle relevanten Daten, sondern auch Informationen über die Daten, die ihnen Kontext und Bedeutung verleihen. Ohne ein exzellentes Metadatenmanagement wird es für LLM-Agenten schwierig, wenn nicht gar unmöglich sein, effizient zu arbeiten.
Zuverlässigkeit: Darüber hinaus müssen die Daten korrekt sein, insbesondere, wenn sie für das Training eines Modells der generativen KI verwendet werden. Vor dem Einsatz generativer KI sollten Unternehmen prüfen, wie viel Vertrauen Führungskräfte und Mitarbeiter:innen in bestehende Analysen, Berichte und/oder BI-Dashboards (Business Intelligence) haben. Lautet die Antwort "nicht viel", sollte das Management in die Lösung dieser Probleme investieren, bevor Ressourcen in das Training von LLMs auf der Grundlage von Daten minderer Qualität investiert werden.
Sicherheit, IP-Schutz und Datenschutz: Die Bedeutung der Datensicherheit ist für die meisten modernen Unternehmen kein Geheimnis, aber im kommenden Zeitalter der generativen KI könnten alle Schwachstellen in den bestehenden Abwehrmechanismen schnell aufgedeckt werden. Das Verhalten von LLMs ist nicht deterministisch oder exakt vorhersehbar - das liegt in der Natur ihrer Kreativität. Daher ist es schwierig, im Voraus zu wissen, wie böswillige Akteure ein LLM austricksen könnten, damit es geschützte Daten über ein Unternehmen oder seine Kunden preisgibt. Dies ist besonders problematisch, wenn ein Standard-LLM verwendet wird, das mit einer RAG erweitert wurde. Da das Modell häufiger mit geschützten Datenbanken interagiert, vervielfachen sich die Risiken einer möglichen Verletzung entsprechend. Obwohl diese Bedrohungen bis zu einem gewissen Grad unbekannt sind, sollte sichergestellt werden, dass Unternehmen, deren sensibelste Daten heute am besten geschützt sind, diesen Vorteil auch in die Ära der generativen KI mitnehmen.
Geschwindigkeit und Flexibilität: Um das Potenzial der KI voll ausschöpfen zu können, benötigen Unternehmen nicht nur Datenpipelines, die das Rohmaterial für die LLM liefern können, sondern sie müssen auch darauf vorbereitet sein, die neu entstehenden Datenströme zu empfangen und zu speichern. Diese Datenarchitektur muss im Voraus entwickelt werden und flexibel genug sein, um einen Informationsfluss zu bewältigen, der in den kommenden Jahren linear oder sogar exponentiell ansteigen kann. Teure Data Warehouses oder sogar relationale Datenbankmanagementsysteme (RDBMS) könnten die Datenmenge, die kostengünstig gespeichert und verarbeitet werden kann, allmählich begrenzen. Es ist nicht zu früh, mit der Erforschung moderner Data-Warehouse-Architekturen zu beginnen, einschließlich skalierbarer Cloud-Objektspeichersysteme wie S3 oder GCS.

"Replay"-Fähigkeit

Je weiter die Zukunft voranschreitet, desto dringender und häufiger wird es notwendig sein, auf die Vergangenheit zurückzugreifen. Die Fähigkeit, frühere Versionen eines Datensatzes wiederherzustellen oder "abzuspielen", ist für das Training, die Abstimmung und das Testen von LLMs buchstäblich unerlässlich. Selbst für Unternehmen, die den Einsatz eines bereits trainierten, abgestimmten und getesteten LLM in Erwägung ziehen, ist die Wiederherstellungsfähigkeit ihrer bestehenden Datensysteme ein nützlicher Indikator für die allgemeine Data Readiness auf dem Weg in das Zeitalter der generativen KI.

Dies gilt für alle hier genannten Metriken. Unternehmen, die nicht über gute Daten und eine gute Datenarchitektur verfügen, werden einen Wettbewerbsnachteil haben, wenn generative KI die Landschaft moderner Unternehmen verändert. Sie sollten daher den Aufbau einer soliden Datenbasis in Erwägung ziehen, bevor sie in ihr erstes LLM investieren. Umgekehrt sind Unternehmen, die ihre Daten bereits heute im Griff haben, gut aufgestellt, um nicht nur von den Vorteilen der generativen KI zu profitieren, sondern mit hoher Wahrscheinlichkeit auch von den nächsten großen Entwicklungen, die heute noch gar nicht vorstellbar sind.

Der Autor:

Gregor Bieler ist Head of Central Europe bei Cognizant. Er verfügt über umfangreiche internationale Expertise in der wettbewerbsintensiven ITK-Branche. Er war in den vergangenen Jahren als Investor und Vorstandsmitglied bei Unternehmen wie PartnersGroup, Apavari Software, Journee Technologies und Alterco tätig. Bieler ist ein Experte für digitale Technologien, insbesondere in den Bereichen SaaS, FinTech und E-Commerce, sowie in den Domänen Strategie, Vertrieb, Betrieb und Marketing. Bevor er seine Tätigkeit als Investor und Vorstandsmitglied aufnahm, konzentrierte sich Bieler hauptsächlich darauf, den kulturellen Wandel und Geschäftstransformationen voranzutreiben. Dies tat er unter anderem bei Microsoft, Unwire Group, Telefonica o2, PayPal und Logitech.

Web: www.cognizant.com

Unsere Empfehlungen

Event

Salesforce, Genesys & Co.: Integration von Wissensmanagement in CRM-Systeme

11.11.2025

Die Anforderungen an moderne Kundenbeziehungen wachsen stetig - personalisierte Kommunikation, schnelle Problemlösungen und exzellenter Service sind heute entscheidend. Doch wie können Unternehmen ihre CRM-Systeme wie Salesforce oder Genesys optimal mit Wissensmanagement-Lösungen integrieren, um diese Ziele zu erreichen? In unserer Webkonferenz zeigen wir Ihnen, wie Sie durch die Verbindung von CRM und W...

Mehr Infos & Anmeldung

Beitrag

RAG katapultiert die Qualität von GenAI auf ein neues Level

WISSENplus

Obwohl Tools wie ChatGPT sehr beliebt und weit verbreitet sind, können die Antworten der generativen KI-Modelle falsch oder veraltet sein. Für den Einsatz im Unternehmensumfeld ist RAG die Lösung für dieses Problem. Die Technologie versorgt das KI-Modell mit aktuellen Informationen und unternehmensinternen Daten. Mit diesem Ansatz sind die generierten Antworten nicht nur aktuell, sondern auch kont...

Beitrag

Sechs Fehler, die KI-Projekte schon in der Anfangsphase zum Scheitern bringen

Der Erfolg von KI-Projekten hängt ganz entscheidend davon ab, dass Unternehmen bereits im Vorfeld genau klären, welche Probleme sie mit Daten und KI lösen wollen, und konkrete Projektziele definieren. Dies ist notwendig, damit die Projektausrichtung stimmt und keine falschen Erwartungen geweckt werden, denn spätere Kurskorrekturen kosten viel Zeit und Geld. Doch auch direkt im Anschluss, wenn die Projek...

Event

Webconference | KI-gestützte Lösungen im Unternehmenseinsatz

15.10.2025

Metaverse, GPT-Technologie & Chatbots: Virtuelle Welten & KI-Tools sind auf dem Vormarsch. Leben, Lernen und Arbeiten verlagern sich mehr und mehr in den virtuellen Raum und werden von intelligenten Assistenten unterstützt. Wie sieht die Arbeit der Zukunft aus? Und mit welchen KI-Tools lässt sich die Effizienz erhöhen und die Produktivität verbessern?...

Mehr Infos & Anmeldung

Beitrag

Digitale Zwillinge: Effizient, nachhaltig, ESG-konform

WISSENplus

Zu den Kernthemen fast aller Unternehmen gehört derzeit die Nachhaltigkeit - gerade im Hinblick auf die erforderliche Umsetzung von ESG-Programmen. Ein effizientes Hilfsmittel sind dabei Digitale Zwillinge. Sie können die Etablierung nachhaltiger Prozesse unterstützen und damit den ökologischen Fußabdruck eines Unternehmens entscheidend verringern....

Beitrag

Serendipity: Wie aus Zufällen Glücksfälle werden

WISSENplus

Gar nicht so selten ist bei Innovationen der Zauber der Serendipität mit im Spiel, die Neugierde und einen offenen Blick für Möglichkeiten schließlich belohnt. Zu dieser Innovationskategorie zählen nicht nur Cornflakes, Schneekugeln, Herzschrittmacher, die Mikrowelle und Penicillin, sondern auch die berühmte blaue Pille. Doch muss man warten, bis König Zufall einen beglückt? Oder kann Serendip...

Event

Webconference | Lösungen für Wissensmanagement: Wissen sammeln, nutzen, entwickeln, teilen, bewerten und erhalten

15.07.2025

Wissen teilen per E-Mail? Daten auswerten in Excel? Und Informationssammlungen in Word? Unternehmen wissen längst, dass Ihr Erfolg maßgeblich von ihren Wissensmanagement-Aktivitäten abhängt. Doch noch viel zu oft werden reibungslose Wissensflüsse durch teaminterne Insellösungen oder tradierte Vorgehensweisen verhindert. Mit der passenden Wissensmanagement-Lösung kanalisieren Sie Ihre Wissensma...

Mehr Infos & Anmeldung

Event

21. Stuttgarter Wissensmanagement-Tage

25.11.2025

Wissen nutzen. Wissen teilen. Wissen sichern....

Mehr Infos & Anmeldung

Diese Artikel könnten Sie auch interessieren

Smart Factory: Prozesse optimieren, Know-how bewahren

WISSENplus

Es gibt endlich eine Lösung für den Fachkräftemangel -und sie heißt KI. Dabei geht es nicht darum, neue KI Modelle zu entwickeln, sondern diese passgenau einzusetzen. Moderne GenAI-Modelle erlauben es, wertvolles Mitarbeiter-Wissen auf einfache Art zu konservieren, und das ohne wirklichen Mehraufwand für die Mitarbeitenden. Allerdings hindern Missverständnisse über die Möglichkeiten und die Int...

Von Algorithmen und Ärzten: Wie KI das Gesundheitswesen verändert

WISSENplus

Künstliche Intelligenz (KI) hat das Potenzial, die Medizin grundlegend zu transformieren. Von der Präzisionsdiagnostik über personalisierte Therapieansätze bis hin zur Optimierung administrativer Prozesse - KI verspricht eine effizientere und patientenzentriertere Gesundheitsversorgung. Doch neben diesen Möglichkeiten gibt es auch klare Grenzen: Regulatorische Hürden, ethische Fragestellungen und...

Wer sucht, der findet?

Wissen gibt es im Überfluss - auch und gerade in Unternehmen. Die Herausforderung besteht darin, aus dem vorhandenen Wissensbestand diejenigen Wissensbausteine zu extrahieren, die situations- und bedarfsbedingt relevant sind. Doch genau an dieser Stelle scheitert die organisationsweite Suche noch viel zu häufig. Zum einen, weil ein Großteil des Wissens schlicht und ergreifend gar nicht dokumentiert...

Von FAQs zur automatisierten Wissensbereitstellung: Die Evolution des Wissensmanagements im Customer Service

WISSENplus

"Wissen ist Macht" - ein altbekanntes Sprichwort, das in einer Ära des rapiden technologischen Fortschritts mehr denn je gilt. Insbesondere im Kundenservice wird die Verfügbarkeit von Wissen zum Differenzierungsmerkmal, das im Hinblick auf die Kundenzufriedenheit und -loyalität eine erfolgsentscheidende Rolle spielt. Doch damit Servicemitarbeiter ihre Kunden jederzeit bestmöglich bediene...

Wissenstransfer in der öffentlichen Verwaltung

WISSENplus

Weiterhin steigt in vielen Behörden die Zahl der Beschäftigten, die in Ruhestand gehen. Viele nehmen wichtiges Erfahrungswissen zu Spezialgebieten mit. Zusätzlich nimmt aber auch der Anteil derer zu, die lange vor dem Ruhestand den Job wechseln, in Elternzeit gehen etc. Immer häufiger müssen daher neue Beschäftigte eingearbeitet und auch Quereinsteigern erstmal Grundlagen vermittelt werden. Ein strukt...

Intelligentes Wissensmanagement: KI-Agenten sind die neuen Wegbegleiter

WISSENplus

Wissen ist Macht. Die wenigsten Unternehmen setzen diese Macht allerdings gezielt ein. Im Gegenteil: Nützliche Information schlummern in irgendwelchen Silo-Lösungen und sind für die breite Mehrheit der Mitarbeiter nicht zugänglich. In der heutigen Zeit ist das fatal oder anders formuliert: geschäftsschädigend. KI-Agenten versprechen Abhilfe. ...

Auf dem (richtigen) Weg

An der Digitalisierung kommt keine Organisation mehr vorbei. Und auch Wissensmanagement ist mittlerweile alternativlos geworden. Andernfalls drohen weitreichende Konsequenzen: Dem War for Talents lässt sich ohne entsprechende Maßnahmen ebenso wenig standhalten wie dem immer stärker werdenden Wettbewerb. Diese Erkenntnis hat sich mittlerweile fast flächendeckend durchgesetzt. Doch obwohl die Gefahr...

Digitale Zwillinge: Effizient, nachhaltig, ESG-konform

WISSENplus

Das Magazin für Digitalisierung, Vernetzung & Collaboration

2024/7 | Fachbeitrag | Künstliche Intelligenz / Robotic

Wie Unternehmen ihre Daten für generative KI optimieren

Warum Daten wichtig sind

Zwei Modelle zur Integration von generativer KI

Datenqualität als Schlüsselfaktor

"Replay"-Fähigkeit

Diese Artikel könnten Sie auch interessieren

Smart Factory: Prozesse optimieren, Know-how bewahren

Von Algorithmen und Ärzten: Wie KI das Gesundheitswesen verändert

Wer sucht, der findet?

Von FAQs zur automatisierten Wissensbereitstellung: Die Evolution des Wissensmanagements im Customer Service

Wissenstransfer in der öffentlichen Verwaltung

Intelligentes Wissensmanagement: KI-Agenten sind die neuen Wegbegleiter

Auf dem (richtigen) Weg

Digitale Zwillinge: Effizient, nachhaltig, ESG-konform

Das Magazin für Digitalisierung, Vernetzung & Collaboration