Share
Beitragsbild zu Große Sprachmodelle (LLM)s: Kraft mit Bedacht nutzen

Große Sprachmodelle (LLM)s: Kraft mit Bedacht nutzen

Große Sprachmodelle (LLMs) sind zu einem globalen Phänomen geworden und haben den Bereich der künstlichen Intelligenz revolutioniert. Diese leistungsstarken Tools haben neue Möglichkeiten in einer Reihe von Anwendungen eröffnet, von der Verarbeitung natürlicher Sprache und der automatischen Generierung von Inhalten bis hin zu fortgeschrittenen Datenanalysen, und damit Herausforderungen bewältigt, die früher als zu komplex oder nicht realisierbar galten. Ihre weit verbreitete Beliebtheit und ihre Fähigkeiten sind jedoch nicht ohne Risiken.

Aktuelle Studien und Expertenanalysen haben mehrere Sicherheitslücken bei LLMs aufgedeckt. Insbesondere hat die OWASP Foundation eine Liste der zehn kritischsten Schwachstellen in LLM-Anwendungen veröffentlicht. In ähnlicher Weise hat das Berryville Institute of Machine Learning (BIML) sein generisches Sicherheitskonzept für maschinelles Lernen angepasst, um speziell auf die Nuancen generativer Modelle wie LLMs einzugehen.

In unserem Artikel werden wir die in diesen Berichten identifizierten Risiken überprüfen und die praktischen Schritte besprechen, die wir bei Red Sift umgesetzt haben, um diese anzugehen. Unser Ziel ist es, zu zeigen, wie wir Erkenntnisse aus angesehenen Sicherheitsquellen integriert haben, um unsere Nutzung von LLMs zu verbessern. Durch die Weitergabe unserer bewährten Verfahren möchten wir ein effektives und sicheres Management dieser leistungsstarken Tools demonstrieren.

Die folgende Abbildung veranschaulicht die Risiken im Zusammenhang mit LLMs, auf die wir in diesem Artikel eingehen werden, und ihre Verbindungen zu den Schlüsselkomponenten der Modellkonstruktion und Produktentwicklung.

Trainingsdaten

Beschreibung

Trainingsdaten für LLMs bergen zahlreiche Risiken, die ihre Integrität, Sicherheit und Einhaltung ethischer Standards untergraben können. Ein besonderes Problem ist die Datenverschuldung, die durch einen Mangel an Transparenz bei Trainingsdaten und -methoden gekennzeichnet ist. Dies, zusammen mit der weit verbreiteten Präsenz von Fehlinformationen und unethischen Inhalten im Internet, verstärkt die Bedenken hinsichtlich der Integrität und Sicherheit der Modelle. Die riesigen Mengen an Textdaten, die während des Trainings verwendet werden, erschweren die Bemühungen, die Ursprünge von Fehlinformationen und Vorurteilen zu ermitteln, insbesondere wenn diese Daten nicht öffentlich zugänglich sind. Selbst wenn sie zugänglich sind, haben Entwickler oft Schwierigkeiten, schädliche Daten zu identifizieren und zu eliminieren, die zu unerwünschten Verhaltensweisen des Modells beitragen. Darüber hinaus stellt der Dateneigentum ein erhebliches Problem dar, da viele Seh- und Sprachmodelle mit urheberrechtlich geschützten Materialien trainiert werden, was zu potenziellen Konflikten in Bezug auf Urheberrechte und Rechte an geistigem Eigentum führt.

Abschwächung

Bei Red Sift entwickeln wir keine grundlegenden LLMs von Grund auf neu; daher sind wir nicht direkt mit vielen der üblichen Herausforderungen konfrontiert, die mit dem Management von Trainingsdaten verbunden sind. Dennoch ist es von entscheidender Bedeutung, die Auswirkungen der Datenqualität auf die Modellleistung zu verstehen. Dieses Bewusstsein hilft uns zu erkennen, dass Modelle, die auf Daten von geringer Qualität trainiert werden, dazu neigen, ungenaue Antworten zu generieren.

Um die Leistung generischer LLMs für spezifische Aufgaben in spezialisierten Bereichen zu verbessern, werden üblicherweise Methoden wie Feinabstimmung oder abrufverstärkte Generierung (RAG) eingesetzt. Bei der Feinabstimmung wird ein vorab trainiertes Modell mit hochwertigen, aufgabenspezifischen Daten angepasst, um seine Genauigkeit bei ähnlichen Aufgaben zu verbessern. Bei der abrufverstärkten Generierung werden externe Daten während des Antwortgenerierungsprozesses integriert, um fundiertere und kontextrelevantere Antworten zu liefern.

Bei Red Sift verwenden wir hochwertige Datenquellen, die für ihre Zuverlässigkeit und Relevanz bekannt sind, wie z. B. unsere firmeneigenen Artikel aus der Wissensdatenbank und Request for Comments (RFC)-Dokumente (eine Reihe von technischen Hinweisen und Standards, die Protokolle und Praktiken für das Internet detailliert beschreiben und von der Internet Engineering Task Force veröffentlicht werden). Durch die Verwendung dieser gut kuratierten Ressourcen ermöglichen wir unseren Modellen, hochspezialisierte Fragen zu beantworten, die für Standardmodelle eine Herausforderung darstellen, und stellen so sicher, dass ihre Antworten sowohl zuverlässig als auch relevant sind.

Feedback-Schleifen-Verzerrung

Beschreibung

Ein weiteres Problem bei Trainingsdaten ist die Feedback-Schleifen-Verzerrung, die LLMs erzeugen und die von BIML als rekursive Kontamination bezeichnet wird. Benutzer interagieren mit den Modellen und generieren neue Textausgaben auf der Grundlage der von ihnen bereitgestellten Eingabeaufforderungen. Diese Ausgaben können dann für zukünftige Modellaktualisierungen oder -iterationen wieder in den Trainingsdatensatz aufgenommen werden. Wenn die vom Modell generierten Ausgaben (die vererbte Vorurteile oder Fehler enthalten können) als Trainingsdaten in einem neuen Modellzyklus verwendet werden, besteht die Gefahr, dass diese Vorurteile verstärkt und vergrößert werden. Dadurch entsteht eine rekursive Schleife, in der Vorurteile kontinuierlich verstärkt werden.

Mitigation

Bei Red Sift bilden wir zwar keine grundlegenden LLMs aus, nutzen aber die Ergebnisse vorab trainierter LLMs, um unsere traditionellen Modelle für maschinelles Lernen (ML) zu verbessern. Im Folgenden beschreiben wir unsere wichtigsten Anwendungsfälle und Validierungsmethoden, um sicherzustellen, dass die Ergebnisse von LLMs unseren Qualitätsstandards entsprechen:

Trainingsdaten-Augmentation

Bei unseren Bemühungen, E-Mail-Klassifizierungsmodelle zu verbessern, stoßen wir oft auf den Bedarf an verschiedenen und spezifischen Arten von E-Mail-Daten, die möglicherweise nicht ohne weiteres in ausreichender Menge verfügbar sind. Um unseren Trainingsdatensatz zu erweitern und ein breiteres Spektrum an Szenarien abzudecken, generieren wir E-Mails, die sich stilistisch unterscheiden, aber inhaltlich unseren vorhandenen Daten ähneln. Um die Relevanz dieser synthetischen E-Mails sicherzustellen, wenden wir mehrere Validierungsmethoden an. Wir verwenden die Kosinus-Ähnlichkeit, um sicherzustellen, dass die synthetischen E-Mails inhaltlich den Referenzdaten ähneln und somit eine konsistente Kennzeichnung beibehalten wird. Wir verwenden auch ein Modell, das auf allen verfügbaren realen Daten trainiert wurde, um die Kennzeichnungen der generierten Daten zu validieren und sicherzustellen, dass die Kennzeichnungen korrekt sind oder zumindest eine hohe Wahrscheinlichkeit aufweisen, wenn Diskrepanzen auftreten. Darüber hinaus führen wir manuelle Prüfungen einer Zufallsstichprobe und aller generierten Daten durch, die von den erwarteten Ergebnissen abweichen. Dieser vielschichtige Ansatz stellt sicher, dass unsere synthetischen Trainingsdaten unseren strengen Qualitäts- und Zuverlässigkeitsstandards entsprechen.

Effiziente Erstellung von Etiketten

Die manuelle Beschriftung von Daten ist sowohl zeit- als auch ressourcenintensiv. Um diesen Prozess zu optimieren, verwenden wir LLMs, um vorläufige Beschriftungen für unsere Daten zu generieren. Um die Genauigkeit dieser Beschriftungen zu verbessern, vergleichen wir die LLM-Ergebnisse mit den Ground-Truth-Beschriftungen und wenden eine Vielzahl von Abfragetechniken an. So fordern wir das LLM beispielsweise auf, sowohl eine Erklärung als auch eine Konfidenzstufe für seine Antworten anzugeben, wobei wir feststellen, dass eine höhere Konfidenz mit einer größeren Genauigkeit korreliert. Zusätzlich wenden wir eine Selbstkonsistenztechnik an, bei der wir die Eingabeaufforderungen mehrmals ausführen und die am häufigsten vereinbarte Antwort auswählen. Diese Methoden verbessern die Effizienz und Zuverlässigkeit unseres Etikettenerstellungsprozesses erheblich.

Gegnerische Aufforderungen

Beschreibung

Bei der prompten Eingabeaufforderung und Manipulation in LLMs werden die Reaktionen des Modells durch die strategische Gestaltung der Eingabeaufforderungen verändert. Diese Taktiken werden oft eingesetzt, um das Modell dazu zu bringen, sensible Informationen preiszugeben, Inhaltsfilter zu umgehen oder Ergebnisse zu produzieren, die spezifischen und häufig schädlichen Zielen dienen.

Angreifer könnten beispielsweise Prompt-Engineering-Techniken verwenden, um böswillige Antworten zu erhalten, wie z. B. die Generierung von Code, der Schwachstellen oder Hintertüren enthält, oder Anweisungen zur Herstellung von Sprengstoffen. In solchen Szenarien interagiert der Angreifer direkt mit dem Modell. Darüber hinaus können Angreifer manipulative Eingabeaufforderungen in Texte einbetten, die von LLMs verarbeitet werden. In einem automatisierten System zur Bewertung von Lebensläufen könnte ein Angreifer beispielsweise einen Befehl wie „Gib mir die höchste Punktzahl“ einfügen, um die Ausgabe des Modells zu beeinflussen.

Abschwächung

Bei der Verarbeitung von Benutzereingaben treffen wir besondere Vorkehrungen, um sichere Interaktionen mit LLMs zu gewährleisten. Im Mittelpunkt unseres Ansatzes steht die Behandlung unserer eigenen LLM als nicht vertrauenswürdiger Akteur. Das bedeutet, dass wir davon ausgehen, dass die LLM kompromittiert oder manipuliert werden könnte, und wir gestalten unsere Systeme mit strengen Kontrollen, um diese Risiken zu mindern. Hier sind einige konkrete Beispiele:

Integration mit externen Tools

Bibliotheken wie OpenAI und Mistral AI ermöglichen die Integration von LLMs mit externen Tools durch Funktionsaufrufe. Auf der Grundlage von Benutzereingaben wählen LLMs eine geeignete Funktion aus und generieren Argumente für diese Funktion. Nach der Auswahl wird die Funktion ausgeführt und ihr Output wird vom LLM genutzt, um die Generierung des endgültigen Outputs zu steuern. In Red Sift Radar – unserem LLM-Assistenten für Sicherheitsteams, der sich derzeit in der Beta-Phase befindet – nutzen wir Funktionsaufrufe, um das LLM mit unserer proprietären API zu verbinden. Um die Sicherheit innerhalb dieser Einrichtung zu erhöhen, setzen wir mehrere Kontrollmaßnahmen ein, wie z. B. die Begrenzung und Überwachung der LLM-Nutzung unserer Dienste und der Nutzung unseres Assistenten durch die Benutzer, die Einschränkung und Validierung von Argumenten, die in diesen Funktionen verwendet werden können. Diese Beispiele veranschaulichen unseren Ansatz, mit dem wir sicherstellen, dass die Ausführung von Funktionen sicher verwaltet wird und nicht ausschließlich auf Benutzereingaben beruht, wodurch unbefugte Aktionen und eine übermäßige Nutzung von Ressourcen verhindert werden.

Benutzereingaben für die Tabellenfilterung

In unseren Produkten werden Datentabellen in großem Umfang verwendet, um detaillierte Informationen über viele Spalten hinweg anzuzeigen. Diese Tabellen bieten zwar eine Benutzeroberfläche zum Filtern von Daten auf der Grundlage von Spaltenwerten, doch kann die manuelle Anpassung von Filtern ein umständlicher Prozess sein, der mehrere Mausklicks erfordert. Um dies zu optimieren, ermöglichen Dadurch wird sichergestellt, dass nur zulässige Felder gefiltert und nur autorisierte Vorgänge ausgeführt werden, wodurch eine unbefugte Offenlegung oder Manipulation von Daten wirksam verhindert wird.

Beschreibung der Modellglaubwürdigkeit

LLMs können als verlustbehaftete wahrscheinlichkeitstheoretische Kompressionsalgorithmen mit einem autoregressiven Mechanismus verstanden werden. Sie funktionieren, indem sie riesige Datenmengen in einem Modell verdichten, aus dem die Originaldaten nicht perfekt rekonstruiert werden können, daher der Begriff „verlustbehaftet“. Diese Modelle werden derzeit nicht als mit echten Verständnis- oder Denkfähigkeiten ausgestattet anerkannt und sind dafür bekannt, dass sie erfundene Antworten auf komplexe Fragen produzieren, ein Phänomen, das oft überraschend sein kann.

Eine spezifische Einschränkung, die als „Umkehrfluch“ bekannt ist, zeigt, dass LLMs, die auf Aussagen wie „A ist B“ trainiert wurden, oft nicht erkennen, dass „B A ist“. Während ChatGPT beispielsweise die Mutter von Tom Cruise korrekt identifizieren kann, kann es schwierig sein, richtig zu antworten, wenn gefragt wird, wer der Sohn von Mary Lee Pfeiffer South ist, da solche umgekehrten Beziehungen in den Trainingsdaten weniger häufig vorkommen.

Ebenso zeigen LLM bei der Lösung mathematischer Probleme, die auf ihrer Häufigkeit in den Trainingsdaten basieren, Inkonsistenzen. So wird beispielsweise die Gleichung „(9/5)x + 32“ (eine gängige Umrechnung von Celsius in Fahrenheit) wahrscheinlich genauer beantwortet als „(7/5)x + 30“, trotz ihrer ähnlichen Komplexität. Diese Diskrepanz tritt auf, weil die erstgenannte Umrechnungsformel in den Trainingsdaten häufiger vorkommt.

Schadensbegrenzung

Bei Red Sift sind wir uns nicht nur der Leistungsfähigkeit von LLMs zur Steigerung der Produktivität bewusst, sondern legen auch großen Wert darauf, unsere Teams darin zu schulen, wie sie dieses Tool effektiv, sicher und zuverlässig einsetzen können. Wir organisieren eine Vielzahl von Aktivitäten, die darauf abzielen, ein tiefes Verständnis für diese Technologien und ihre verantwortungsvolle Anwendung zu vermitteln.

Nicht-technische Abteilungen

Die meisten unserer nicht-technischen Mitarbeiter, z. B. in den Bereichen Vertrieb und Marketing, verwenden hauptsächlich ChatGPT. Wir besprechen geeignete Anwendungsfälle und stellen einfache Techniken zur Eingabeaufforderung zur Qualitätsverbesserung vor, wie z. B. die Erstellung von Personas (Anpassung der Modellantworten an ein bestimmtes Benutzerprofil oder eine bestimmte Person) und die Verfeinerung von Abfragen (Nachverfolgung mit dem Modell zur Verfeinerung seiner Ergebnisse für eine höhere Genauigkeit und Relevanz). Wir betonen auch die Bedeutung der Faktenüberprüfung, um die Zuverlässigkeit der bereitgestellten Informationen zu gewährleisten.

Softwareentwicklung

Wir organisieren Workshops, um unseren Ingenieuren dabei zu helfen, LLMs programmgesteuert zur Automatisierung von Aufgaben einzusetzen, für die sie gut geeignet sind. Diese Sitzungen decken eine Vielzahl von Themen ab, darunter die Überarbeitung von Systemansagen zur Steigerung der Effektivität, die Erforschung von Ansagen-Engineering-Techniken zur Verbesserung der Modellgenauigkeit und die Nutzung von Funktionsaufrufen zur Integration in unsere bestehenden APIs. Darüber hinaus untersuchen wir die Verwendung von Open-Source-Modellen neben kommerziellen Modellen, um unser technologisches Instrumentarium zu erweitern und Innovationen zu fördern.

Data Science Team

Wir erforschen fortschrittliche Strategien, um Fehlinterpretationen des Modells zu minimieren, insbesondere bei schwierigen Fragestellungen:

  • Jedes LLM hat einen Trainingsdaten-Stichtag und kann daher keine genauen Antworten liefern, die die neuesten Informationen erfordern. Bei unseren Aufgaben im Bereich Geschäftsbeziehungs-Mining verwenden wir die Retrieval-Augmented-Generation-Methode (RAG), um das Modell mit Web-Suchergebnissen auszustatten, sodass es auf aktuelle Wirtschaftsnachrichten zugreifen kann. Wir implementieren auch „Grounding“, das Entscheidungen mit unterstützenden Beweisen verknüpft und so das Vertrauen in unsere KI-gestützten Antworten stärkt.
  • Bei komplexen Fragen, die mehrere Schritte erfordern, insbesondere in unserem Bereich der Cybersicherheit – wie z. B. die Analyse der Sicherheitslage einer Domäne – sind die Antworten von Standard-LLMs oft unvollständig, inkonsistent und möglicherweise ungenau. Wir haben einen zum Patent angemeldeten Ansatz entwickelt, der das LLM bei komplexen Aufgaben durch vordefinierte Schritte führt. Diese Methode stellt sicher, dass Endbenutzer stets korrekte, vollständige und konsistente Antworten erhalten.
Entwicklungsunsicherheiten

Beschreibung

Die Verwendung von Black-Box-APIs in LLMs bringt mehrere erhebliche Herausforderungen mit sich, vor allem aufgrund der mangelnden Transparenz und Zugänglichkeit. Ohne Zugriff auf das zugrunde liegende Modell können Benutzer und Entwickler das Verhalten des Modells nicht vollständig verstehen oder vorhersagen, was zu potenziellen Problemen bei der Zuverlässigkeit und Vertrauenswürdigkeit führt.

Änderungen am Modell oder die Verwendung mehrerer Modelle hinter einer einzigen API können ohne Vorankündigung erfolgen, was die Entwicklung und Wartung von Anwendungen, die auf diesen Modellen basieren, erschwert. Diese Undurchsichtigkeit kann ein effektives Debugging und die Optimierung von Systemen, die LLMs integrieren, behindern, da Entwickler möglicherweise nicht in der Lage sind, die Ursache von Fehlern oder inkonsistenten Ausgaben zu ermitteln.

Darüber hinaus kann das nicht-deterministische Verhalten dieser Modelle diese Probleme noch weiter verschärfen, da es ein Element der Unvorhersehbarkeit einführt, das es noch schwieriger machen kann, Probleme zu diagnostizieren (oder sogar zu reproduzieren) oder eine konsistente Leistung bei verschiedenen Anwendungen oder Einsätzen sicherzustellen.

Abschwächung

Im Gegensatz zum herkömmlichen maschinellen Lernen besteht die Entwicklung eines neuen Modells mit LLMs oft nur darin, die Eingabeaufforderung zu ändern. Daher ist die Protokollierung von Eingabeaufforderungen während der Entwicklung für den Vergleich verschiedener Versionen von entscheidender Bedeutung. LLMs sind so konzipiert, dass sie stochastisch sind und zwischen den Durchläufen unterschiedliche Ergebnisse liefern. Bei Aufgaben, die keine Kreativität erfordern, kann die Einstellung der Temperatur auf Null die Abweichungen minimieren. Obwohl neuere Modelle die Verwendung eines Startparameters für deterministische Ergebnisse unterstützen, hat die praktische Erfahrung gezeigt, dass dies unzuverlässig ist.

GPT-4 ist derzeit das leistungsstärkste LLM, aber seine hohen Kosten veranlassen viele dazu, Alternativen in Betracht zu ziehen. Die Erkundung anderer kommerzieller Optionen wie Gemini oder Claude 3 oder Open-Source-Modelle wie LLaMA 3 oder Phi 3 könnte von Vorteil sein. Während öffentliche Datensatz-Benchmarks Einblicke in die Fähigkeiten eines Modells bieten, ist es für uns von entscheidender Bedeutung, eine umfassende Testreihe für unsere nachgelagerten Aufgaben beizubehalten. Diese Reihe sollte sich leicht integrieren lassen, indem einfach die Anmeldedaten eines neuen Anbieters eingegeben werden, um seine Leistung mit den bestehenden zu vergleichen.

In der Produktion ist eine effektive Überwachung der Token-Nutzung und der Reaktionszeiten von entscheidender Bedeutung, um die Gesundheit und Effizienz unserer LLM-Anwendungen zu gewährleisten. Durch die Verfolgung der Anzahl der Token, die für jede Anfrage verbraucht werden, können wir Nutzungsmuster identifizieren und Abweichungen erkennen, die auf Ineffizienzen oder potenziellen Missbrauch hinweisen können. Ebenso hilft die Überwachung der Antwortzeiten sicherzustellen, dass unser System die Leistungsstandards und die Erwartungen der Benutzer erfüllt. Durch die Einrichtung von Echtzeit-Warnmeldungen für diese Kennzahlen kann unser Team Probleme schnell beheben und so Ausfallzeiten minimieren und die allgemeine Benutzererfahrung verbessern.

Schlussfolgerung

In diesem Artikel haben wir die facettenreiche Landschaft der Integration von LLMs in den Geschäftsbetrieb untersucht und dabei nicht nur die erheblichen Vorteile hervorgehoben, die sie mit sich bringen, sondern auch die beachtlichen Risiken, die sie bergen. Von der Sicherstellung der Integrität von Trainingsdaten und dem Schutz vor feindlichen Angriffen bis hin zur Bewältigung der Unsicherheiten in der Entwicklung und der Aufrechterhaltung der Vertrauenswürdigkeit der Ergebnisse – die Herausforderungen sind vielfältig und bedeutsam. Es ist klar, dass der Weg zur Ausschöpfung des vollen Potenzials von LLMs nicht nur komplex ist, sondern auch ein wachsames und proaktives Management erfordert. Während wir diese leistungsstarken Tools weiterentwickeln, ist es von entscheidender Bedeutung, unsere Strategien zur Risikominderung zu verbessern, um sicherzustellen, dass Fortschritte in der KI sowohl positiv als auch ethisch vertretbar sind.

Source: Red Sift-Blog

Sie haben Fragen? Ihr Ansprechpartner für D/A/CH

Do you have any questions? Your contact person for D/A/CH

Julian Wulff, Director Cyber Security Central Europe at Red Sift

* Kontakt über LinkedIn

Red Sift bei LinkedIn

red sift

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden