Der Bericht “State of Data & AI” von Databricks beweist, dass KI die Testphase hinter sich gelassen hat und im Produktionsbetrieb angekommen ist. Außerdem nimmt der Trend zur Demokratisierung von Daten und KI zu.
Unternehmen auf der ganzen Welt drängen darauf, ihre Daten- und KI-Strategien zu demokratisieren. Nur 18 Monate nach der Einführung von ChatGPT ist GenAI in den Mainstream-Diskursen angekommen. Beim Einsatz von LLMs (Large Language Model) entscheiden sich Unternehmen üblicherweise für Open Source, dies ist eines der wichtigsten Ergebnisse des State of Data & AI 2024 Reports von Databricks. Der Bericht wurde während des Data & AI Summit 2024 vorgestellt. Sowohl große als auch mittelständische Unternehmen wollen sich diesen Trend zunutze machen und investieren in GenAI, um sich zu transformieren. Bei der Ausarbeitung der Strategien erkennen Unternehmen, dass ihre Daten in diesem Prozess von zentraler Bedeutung sind, wenn sie ihren Kunden ein hochwertiges GenKI-Erlebnis bieten wollen.
Die wichtigsten Ergebnisse des Berichts:
- Im Jahr 2023 wurden 11 Mal mehr KI-Modelle in Betrieb genommen: Im Durchschnitt wurden Unternehmen mehr als dreimal effizienter bei der Überführung von Modellen in den Produktionsbetrieb. Die Verarbeitung natürlicher Sprache (natural Language) ist die meistgenutzte und am schnellsten wachsende Anwendung für maschinelles Lernen.
- 70 Prozent der Unternehmen, die GenAI nutzen, verwenden Tools und Vektordatenbanken, um die Basismodelle zu erweitern: Unternehmen konzentrieren sich stark auf die Anpassung von LLMs mit ihren eigenen Daten durch Retrieval Augmented Generation (RAG). RAG erfordert bestimmte Vektordatenbanken, deren Nutzung um 377 Prozent im Vergleich zum Vorjahr gestiegen sind (einschließlich Open-Source- und geschlossenen LLMs).
- 76 Prozent der Unternehmen, die LLMs nutzen, entscheiden sich für Open Source, oft neben proprietären Modellen: Nur vier Wochen nach der Markteinführung macht Meta Llama 3 bereits 39 Prozent aller Open-Source-Modelle aus. Stark regulierte Branchen sind die überraschenden ersten GenAI-Anwender. Der Finanzdienstleistungssektor, der bei der GPU-Nutzung führend ist, entwickelt sich am schnellsten mit einem Wachstum von 88 Prozent innerhalb von sechs Monaten.
Unternehmen erstellen ihre Machine Learning (ML)-Modelle zunächst durch experimentelles Testen. Sie probieren verschiedene Algorithmen und Hyperparameter aus, um die besten Modelle zu finden, bevor sie diese in den Produktionsbetrieb geben. In diesem Prozess verfolgen die Teams zwei konkurrierende Ziele: Sie müssen sicherstellen, dass die Experimentierphase so zeiteffizient wie möglich ist und gleichzeitig nur streng getestete Modelle in Produktion geben.
Neben den Trends bei der Einführung von Daten und KI hat der Bericht auch eine Rangliste der 10 am häufigsten verwendeten Daten- und KI-Produkte erstellt. 9 von 10 sind Open-Source-Produkte. Der Grund dafür ist, dass Unternehmen dazu neigen, mehr Flexibilität zu wählen und gleichzeitig proprietäre Mauern und Einschränkungen zu vermeiden. Die folgenden drei KI-Produkte ragen aus diesen Top 10 heraus, weil sie sich im letzten Jahr weiterentwickelt haben und das Interesse von Unternehmen an ihnen gestiegen ist: Plotly Dash, Hugging Face Transformers und LangChain.
- Plotly Dash: Plotly Dash ist eine Low-Code-Plattform, die es Data Scientists ermöglicht, Datenanwendungen einfach zu erstellen, zu skalieren und bereitzustellen. Produkte wie Dash helfen Unternehmen, Anwendungen schneller und einfacher bereitzustellen, um mit den dynamischen Geschäftsanforderungen Schritt zu halten.
- Hugging Face: Hugging Face Transformers ist das am zweithäufigsten genutzte Produkt. Viele Unternehmen nutzen die vortrainierten Transformer-Modelle der Open-Source-Plattform zusammen mit ihren Unternehmensdaten, um Basismodelle zu erstellen und zu optimieren. Dies unterstützt einen wachsenden Trend, den Databricks bei RAG-Anwendungen beobachtet.
- LangChain: LangChain ist eine Open Source Toolchain für die Arbeit mit und den Aufbau von proprietären LLMs. Wenn Unternehmen ihre eigenen modernen LLM-Anwendungen erstellen und mit spezialisierten transformatorbezogenen Python-Bibliotheken arbeiten, um die Modelle zu trainieren, können sie mit LangChain zeitnahe Schnittstellen oder Integrationen zu anderen Systemen entwickeln.
Wenn Daten- und KI-Plattformen isoliert sind, ist es für Teams schwierig, ihre GenAI-Projekte zu beschleunigen – ganz gleich, ob sie natürliche Sprache verwenden, um ihren Daten Fragen zu stellen, oder ob sie intelligente Apps mit ihren Daten entwickeln. Eine neue Kategorie von Datenplattformen nutzt GenAI, um Daten einfacher zu sichern und zu nutzen und die technische Hürde für die Wertschöpfung aus ihnen zu senken; eine davon ist die Databricks Data Intelligence Platform.
Mit die wichtigste Erkenntnis aus dem Bericht ist, dass Data Science und KI Unternehmen zu mehr Effizienz verhelfen und GenKI sogar neue Möglichkeiten eröffnet. Mit Data-Intelligence-Plattformen gibt es einen zusammenhängenden, geregelten Ort für das gesamte Unternehmen, um Daten und KI zu nutzen. Die vorliegenden Daten zeigen, dass Unternehmen aus allen Branchen diese Tools nutzen. Unter den ersten Anwendern finden sich ausgerechnet Branchen wie das Finanzwesen, die normalerweise stark reguliert sind.
Durch den Einsatz von ML-Modellen in der Produktion haben die Unternehmen messbare Vorteile erzielt. Sie setzen zunehmend Natural Language Processing (NLP) ein, um Erkenntnisse aus Daten zu gewinnen. Sie verwenden Vektordatenbanken und RAG-Anwendungen, um ihre eigenen Unternehmensdaten in ihre LLMs zu integrieren. Dabei stellen Open-Source-Tools die Zukunft dar, denn sie stehen weiterhin ganz oben auf der Liste der beliebtesten Produkte. Unternehmen verfolgen darüber hinaus eine Strategie mit einheitlicher Daten- und KI-Governance.
Über den Bericht
Der Bericht „State of Data and AI“ bietet eine Momentaufnahme der Priorisierung von Daten- und KI-Initiativen in Unternehmen. Die Erkenntnisse stammen von mehr als 10.000 globalen Kunden – darunter mehr als 300 der Fortune 500 – die die Databricks Data Intelligence Platform nutzen. Sofern nicht anders angegeben, werden in diesem Bericht Daten vom 1. Februar 2023 bis zum 31. März 2024 präsentiert und analysiert, und die Nutzung wird anhand der Anzahl der Kunden gemessen. Dieser Bericht soll Unternehmen bei der Entwicklung effektiver Datenstrategien für die Unternehmens-KI unterstützen.