Share
Beitragsbild zu Textklassifizierung im Zeitalter von LLMs

Textklassifizierung im Zeitalter von LLMs

Mit dem Fortschritt der Verarbeitung natürlicher Sprache (NLP) bleibt die Textklassifizierung eine grundlegende Aufgabe mit Anwendungen in der Spam-Erkennung, Stimmungsanalyse, Themenkategorisierung und mehr. Traditionell hing diese Aufgabe von regelbasierten Systemen und klassischen Algorithmen des maschinellen Lernens ab. Das Aufkommen von Deep Learning, Transformatorarchitekturen und Large Language Models (LLMs) hat jedoch die Textklassifizierung verändert und genauere, nuanciertere und kontextbewusstere Lösungen ermöglicht.

Bei Red Sift treibt uns unser Engagement für Technologie und Innovation dazu an, kontinuierlich innovative Methoden zu erforschen und zu übernehmen und sie in unsere Arbeit zu integrieren, um komplexe Herausforderungen zu bewältigen. In diesem Artikel werden wir einige der fortschrittlichsten Ansätze zur Textklassifizierung untersuchen und sie mit einem traditionellen ML-Modell vergleichen, um die Innovationskraft zu demonstrieren und die Stärken und Grenzen der einzelnen Ansätze hervorzuheben.

Aufgabe und Daten

Bei der Klassifizierungsaufgabe werden Website-Inhalte in einen von 15 Branchensektoren eingeordnet, die mit den NAICS-Codes übereinstimmen.

Der Testsatz umfasst 1.500 Websites mit 100 Beispielen pro Klasse. Um zu bewerten, wie jede Technik bei unterschiedlichen Mengen an Trainingsdaten abschneidet, passen wir die Größe des Trainingssatzes in fünf Stufen an: 100x, 200x, 400x, 800x und 1600x. Hier entspricht „100x“ 100 Datenpunkten pro Klasse (insgesamt 1.500 Datenpunkte), sodass wir die Effektivität jeder Methode bei der Skalierung des Datensatzes beobachten können.

Techniken und Ergebnisse

Ausgangslage: „Bag of Words“

Vor der Anwendung von ML-Modellen müssen Textdaten in numerische Vektoren umgewandelt werden. Eine der grundlegendsten und beliebtesten Techniken zur Textvektorisierung ist „Bag of Words“ (BoW). Dabei wird ein Vokabular aller eindeutigen Wörter im Korpus erstellt und jedes Dokument als Vektor dargestellt, bei dem jedes Element dem Vorhandensein eines Wortes im Vokabular entspricht. Alternativ können wir die Häufigkeit des Wortes im Dokument oder einen ausgefeilteren TF-IDF-Score (eine Formel, die die Häufigkeit des Wortes im Dokument und die Häufigkeit des Wortes im Korpus berücksichtigt) verwenden.

Für den Modellierungsteil verwenden wir ein einfaches logistisches Regressionsmodell, das in scikit-learn implementiert ist. Die Kombination aus BoW und logistischer Regression ist eine klassische und leistungsstarke Grundlage für Textklassifizierungsaufgaben. In diesem Experiment wird die Genauigkeit als Metrik verwendet. Die folgende Abbildung zeigt, dass die Leistung im Testsatz linear mit dem exponentiellen Wachstum der Trainingsgröße zunimmt.

Verdichtete Vektordarstellung

Zu den Einschränkungen des BoW-Modells gehören:

  1. Der Vektor ist spärlich, was möglicherweise nicht für alle ML-Algorithmen geeignet ist.
  2. Der Vektor ist hochdimensional, was möglicherweise viel Speicher und Rechenleistung erfordert.
  3. Die Reihenfolge der Wörter wird ignoriert, wodurch möglicherweise Informationen verloren gehen.

Um diese Einschränkungen zu beheben, können wir eine verdichtete Vektordarstellung verwenden.

Wort-Einbettungen

Worteinbettungen sind mathematische Darstellungen von Wörtern in einem kontinuierlichen Vektorraum, in dem semantisch ähnliche Wörter benachbarten Punkten zugeordnet werden. Jedes Wort wird als dichter Vektor von Gleitkommazahlen dargestellt, wobei die Werte durch die Analyse großer Textkorpora ermittelt werden. Um die Darstellung eines Dokuments zu finden, können wir den Durchschnitt der Worteinbettungen der Wörter im Dokument bilden. Zwei frühe bemerkenswerte Modelle für Worteinbettungen sind Word2Vec und GloVe. Word2Vec verbindet ein flaches neuronales Netz, um die Einbettungen zu lernen, während GloVe auf der Co-Occurrence-Matrix von Wörtern im Korpus basiert. Wir werden GloVe in diesem Experiment verwenden.

Seit der Einführung der Transformer-Architektur im Artikel „Attention is All You Need“ sind Transformer-basierte Modelle für viele NLP-Aufgaben zum Stand der Technik geworden. Die Selbstaufmerksamkeitsmechanismen in der Transformer-Architektur ermöglichen die Erfassung von Abhängigkeiten und Beziehungen zwischen Wörtern über große Entfernungen, was in früheren Modellen nicht möglich war. Die Architektur eignet sich auch für die Parallelisierung, was im Vergleich zur sequenziellen Verarbeitung von RNN-Modellen ein schnelleres Training und eine schnellere Inferenz ermöglicht. BERT ist eines der bemerkenswertesten Modelle in dieser Familie. Daher beziehen wir auch BERT (base-uncased) in dieses Experiment ein.

Ähnlich wie im vorherigen Abschnitt verwenden wir nach der Vektorisierung ein einfaches logistisches Regressionsmodell und die Genauigkeit als Metrik. Die folgende Abbildung zeigt, dass die Worteinbettungen vorab trainiert werden und bei einer geringen Größe des Trainingssatzes schnell starten. Allerdings ist die Leistung von GloVe und BERT schlechter als die von BoW, wenn die Größe des Trainingssatzes größer ist. Eine Erklärung könnte sein, dass BoW einfacher ist, aber seine Darstellung aus den Daten mit einer ähnlichen Verteilung wie der Testsatz gelernt wird, während Worteinbettungen mit allgemeineren Daten vorab trainiert werden.

Dokumenteneinbettungen

Dieser Abschnitt konzentriert sich auf modernere Techniken zur Darstellung von Dokumenten als dichte Vektoren direkt, anstatt ihre Worteinbettungen zu mitteln. Wir werden das Modell gte-large-en-v1.5 bewerten, das auf der Massive Text Embedding Benchmark (MTEB) Leaderboard von Hugging Face aufgrund seiner geringen Größe (weniger als 1 Milliarde Parameter) sehr gut abschneidet. Wir beziehen auch zwei andere kommerzielle Modelle von OpenAI (text-embedding-3-large) und Google (text-embedding-004) mit ein. Diese Modelle übertreffen BoW bei der größten Trainingsdatensatzgröße und zeigen auch bei der kleinsten Trainingsdatensatzgröße eine hervorragende Leistung.

Feinabstimmung von LLMs mit „classification head“

Beim Einbettungsansatz werden die Einbettungen vorab trainiert und festgelegt; nur die Gewichtungen des logistischen Regressionsmodells werden während des Trainings aktualisiert. Dadurch wird die Leistung des Modells eingeschränkt. Durch die Feinabstimmung von LLMs kann das Modell die aufgabenspezifischen Merkmale erlernen und eine bessere Leistung erzielen.

Es gibt verschiedene Ansätze, um auszuwählen, welcher Teil des LLM je nach verfügbaren Trainingsdaten feinabgestimmt werden soll. Die letzte Schicht des LLM, die zur Vorhersage des nächsten Wortes verwendet wird, wird durch eine Softmax-Schicht zur Klassifizierung ersetzt. Da wir nur über eine begrenzte Menge an Trainingsdaten verfügen, werden wir nur diese Schicht feinabstimmen.

Wir untersuchen die Leistung der folgenden repräsentativen LLMs:

  • BERT: das klassische Encoder-only-Transformator-Modell (110 Millionen Parameter ohne Hülle)
  • GPT-2: das klassische Decoder-only-Transformationsmodell (kleine 124 Millionen Parameter)
  • Llama-3: das neueste Decoder-only-LLM von Meta AI (8B- und 70B-Parameter)

Alle Modelle übertrafen den vorherigen besten Ansatz, Embedding Google, mit Ausnahme von GPT-2. Im Allgemeinen gilt: Je größer das Modell, desto besser die Leistung.

Kontextbezogenes Lernen mit Instruktions-LLMs

Seit der Einführung des InstructGPT-Papiers und des ChatGPT-Tools können LLMs über einfache Eingabeaufforderungen effektiv für Klassifizierungsaufgaben eingesetzt werden. Wir untersuchen Modelle von namhaften LLM-Anbietern mit einer unterschiedlichen Anzahl von Beispielen in der Eingabeaufforderung. In der Eingabeaufforderung beschreiben wir die Aufgabe und die Klassen und geben dann Beispiele für jede Klasse an.

Wir haben einige interessante Erkenntnisse gewonnen:

  • Modellgröße:
    • Große Modelle GPT-4 und GPT-4o schneiden eindeutig am besten ab, gefolgt von Claude 3.5 Sonnet und Gemini 1.5 Pro.
    • Die kleinen Modelle GPT-4o Mini, Gemini 1.5 und Llama-3 70B sind mit 0–2 Beispielen ebenso gut.
  • Beispielgröße:
    • Je größer das Modell, desto weniger Beispiele werden benötigt.
    • Die Leistung der Llama-Modelle nimmt bei 5 Beispielen stark ab. Es ist unklar, warum dies der Fall ist, da die Länge der Eingabe noch nicht die Kontextgrenze erreicht.

Zero-Shot-Lernen mit auf LLMs abgestimmten Anweisungen

Nicht bei dieser spezifischen Aufgabe, aber bei schwierigeren Aufgaben kann das kontextbezogene Lernen viele Beispiele erfordern, um eine gute Leistung zu erzielen. Dies führt zu einer langen Eingabeaufforderung mit mehreren Nachteilen:

  • Einige LLMs haben begrenzte Kontextfenster und haben Probleme mit langen Eingabeaufforderungen
  • Erhöhte Inferenzlatenz aufgrund der Verarbeitung von mehr Token
  • Höhere API-Kosten durch größere Token-Zahlen

Um diese Probleme zu beheben, können wir die LLMs mit Anweisungen feinabstimmen. Jedes Element in den Trainingsdaten für die Feinabstimmung ist ein Eingabe-Ausgabe-Paar. Das feinabgestimmte Modell wird die Aufgabe genau verstehen, die Anweisungen befolgen und Vorhersagen mit einer viel kürzeren Eingabe treffen.

In den Trainingsdaten müssen wir eine detaillierte Beschreibung der Klassen einfügen, genau wie beim kontextbezogenen Lernen, um dem Modell zu helfen, die Aufgabe zu verstehen. In der Inferenzphase können wir jedoch einfach die Klassennamen ohne Beschreibung und ohne Beispiele einfügen, um die Länge der Eingabeaufforderung erheblich zu reduzieren.

Die folgende Abbildung zeigt eine deutliche Verbesserung zwischen der Feinabstimmung der Anweisungen und dem Standardmodell mit Wenig-Schuss-Aufforderung. Das kleinere Modell Llama-3 8B profitierte stärker von der Feinabstimmung der Anweisungen.

Diskussion

Um unsere Analyse zusammenzufassen, vergleicht die folgende Abbildung die leistungsstärksten Techniken über verschiedene Ansätze hinweg und hebt dabei mehrere wichtige Erkenntnisse hervor:

  • Keine Trainingsdaten: Die Eingabeaufforderung mit wenigen Aufnahmen mit GPT-4 liefert die höchste Genauigkeit und übertrifft sogar alle anderen Methoden mit unterschiedlichen Trainingsdatengrößen. Allerdings ist sie die langsamste und teuerste Option.
  • Kleine Trainingsdaten (50x-100x): Die Feinabstimmung der Anweisungen mit Llama-3 70B erzielt die beste Genauigkeit, wobei auch das kleinere 8B-Modell eine gute Leistung erbringt. Bei anspruchsvolleren oder domänenspezifischen Aufgaben ist die Feinabstimmung der Anweisungen mit Open-Source-Modellen wahrscheinlich besser als bei generischen kommerziellen Optionen. Diese Methode ist auch schneller und kostengünstiger.
  • Mittlere Trainingsdaten (400x-800x): Die Feinabstimmung des Klassifizierungskopfes mit LLMs zeigt in diesem Bereich klare Vorteile. Die Feinabstimmung eines Llama-3 70B-Modells erzielt die höchste Genauigkeit, vergleichbar mit GPT-4. Kleinere Modelle wie BERT-base (110M vs. 7B) bieten eine etwas geringere Genauigkeit, aber eine viel schnellere Leistung, was sie zu einem praktischen Kompromiss macht.
  • Große Trainingsdaten (1600x): Bei dieser einfachen Klassifizierungsaufgabe schneidet ein klassisches Bag-of-Words-Modell (BoW) im Vergleich zu fortgeschritteneren Techniken überraschend gut ab. Der lineare Trend in der ersten Abbildung deutet darauf hin, dass die Leistung mit zusätzlichen Trainingsdaten weiter verbessert werden könnte. Dieser Ansatz hat jedoch einige Einschränkungen: Er erfordert große Mengen an Trainingsdaten und ist einsprachig, d. h. für verschiedene Sprachen werden unterschiedliche Datensätze benötigt. Im Gegensatz dazu sind viele große Sprachmodelle (LLMs) von Natur aus mehrsprachig. Trotz dieser Einschränkungen bleibt BoW eine extrem schnelle Methode.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die Textklassifizierung mit dem Aufkommen von LLMs einen langen Weg zurückgelegt hat und transformative Fähigkeiten für reale Anwendungen bietet. Bei Brand Trust ermöglichen uns diese Innovationen in der Textklassifizierung eine präzise Klassifizierung von Webseiteninhalten und Branchenkategorien und stärken unsere Fähigkeit, Risiken der Domain-Identitätswechsel zu erkennen und zu mindern. Über die Textklassifizierung hinaus hat die generative KI zu Fortschritten bei unseren Produkten geführt und unser Engagement für die Anwendung von KI zur Bewältigung komplexer Herausforderungen im Bereich der Cybersicherheit unterstrichen.

Source: Red Sift-Blog

Sie haben Fragen? Ihr Ansprechpartner für D/A/CH

Do you have any questions? Your contact person for D/A/CH

Julian Wulff, Director Cyber Security Central Europe at Red Sift

* Kontakt über LinkedIn

Red Sift bei LinkedIn


Bild/Quelle: https://depositphotos.com/de/home.html

red sift

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden