Share
Beitragsbild zu Ihre KI-Daten sind wertvoll… aber sind sie auch sicher?

Ihre KI-Daten sind wertvoll… aber sind sie auch sicher?

Es scheint, als sei es über Nacht passiert: Künstliche Intelligenz und maschinelles Lernen sind für Unternehmen auf der ganzen Welt von zentraler Bedeutung geworden. In nur kurzer Zeit haben sich KI und maschinelles Lernen zu unverzichtbaren Werkzeugen entwickelt, die die digitale Landschaft rasch verändern und Unternehmen in die Lage versetzen, Inhalte zu erstellen, datengestützte Entscheidungen zu treffen und manuelle Prozesse zu automatisieren.

Im Gesundheitswesen zum Beispiel wird KI eingesetzt, um medizinische Bilder zu analysieren, Krankheiten zu diagnostizieren und personalisierte Behandlungspläne für Patienten zu entwickeln. Im Finanzwesen werden ML-Algorithmen für die Betrugsüberwachung, Marktprognosen und die Vermögensverwaltung eingesetzt. Und in einer Vielzahl von Branchen werden KI-Technologien für den Kundensupport und andere Funktionen eingesetzt.

Dies gilt vor allem für den Bereich der Cybersicherheit, wo KI und ML inzwischen zum Kern vieler Unternehmen gehören. Neue Tools revolutionieren die Art und Weise, wie sich Unternehmen gegen Cyberbedrohungen schützen, indem sie große Datenmengen analysieren, Muster in Echtzeit erkennen und potenzielle Sicherheitsverletzungen aufdecken. Die Möglichkeiten der künstlichen Intelligenz reichen von Systemen zur Erkennung von Eindringlingen bis hin zu Sicherheitstools, die Phishing und Malware blockieren und sensible Daten und kritische Systeme vor Schaden bewahren.

In unserem letzten Kamingespräch diskutierten Julian Weinberger, Field CTO von ShardSecure, und Zack Link, CISO und VP of Sales Engineering, über die sich schnell verändernde Welt der KI, einschließlich der wachsenden Bedeutung – und Kosten – von KI/ML-Modellen und Trainingsdaten.

Der enorme Wert von KI/ML-Daten

Erstens sind wir der Meinung, dass KI/ML-Modelle und Trainingsdaten als wichtiges geistiges Eigentum behandelt werden sollten. Unternehmen investieren viele Millionen Dollar in die Entwicklung von Modellen, die, wenn sie erfolgreich sind, einzigartige Vorteile auf dem Markt bieten.

Der Entwicklungsprozess für diese KI/ML-Modelle ist mit einem immensen Aufwand verbunden. Teams von Datenwissenschaftlern verbringen unter Umständen bis zu 80 % ihrer Zeit damit, riesige Mengen an Rohdaten zu sammeln und zu verarbeiten, um sie für die Trainings- und Testphasen nutzbar zu machen. Die Qualität der daraus resultierenden Modelle hängt zu einem großen Teil von der Menge und Qualität der verarbeiteten Daten ab. (Im Allgemeinen gilt: Je größer der Datensatz, desto besser kann das Modell komplizierte Muster erkennen, Verzerrungen vermeiden und genaue Vorhersagen treffen).

Da die Verarbeitung von Daten nicht nur den größten Teil des KI/ML-Modellentwicklungsprozesses ausmacht, sondern auch über den Erfolg dieser Modelle entscheidet, ist es sinnvoll, KI/ML-Daten wie kritisches geistiges Eigentum zu behandeln. Dies beginnt mit dem Schutz der Daten vor den einzigartigen Cyber-Bedrohungen, denen sie ausgesetzt sind.

Enträtseln der einzigartigen Bedrohungen für KI/ML-Daten

KI-/ML-Daten haben mit anderen Datenarten gemeinsame Herausforderungen in Bezug auf die Datensicherheit, wie z. B. unbefugter Zugriff, Sicherheitsverletzungen und Bedrohungen der Datenintegrität. KI/ML-Daten stellen jedoch auch besondere Herausforderungen für die Datensicherheit dar, darunter:

  • Datenverfälschung und gegnerische Angriffe
  • Modell-Diebstahl
  • Angriffe auf Online-Systeme
  • Risiken für Cloud-Anbieter
  • Ransomware-Angriffe
  • Datenschutz und Compliance-Herausforderungen

Im Folgenden gehen wir auf jede dieser Bedrohungen näher ein.

Datenverfälschung und gegnerische Angriffe

Data Poisoning ist eine subtile und verheerende Methode, den Erfolg eines KI/ML-Modells zu sabotieren. Bei diesen Angriffen werden die Trainingsdaten absichtlich mit bösartigen Informationen manipuliert, um ein Modell zu verfälschen.

In einer Studie demonstrierten Forscher, wie einfach es ist, Daten zu vergiften, und stellten fest, dass sie für weniger als 70 US-Dollar ganze 0,01 % der riesigen LAION-400M- oder COYO-700M-Datensätze hätten vergiften können. Mit nur geringen technischen Kenntnissen können Angreifer Online-Dienste nutzen, um auf einfache Weise Ergebnisse zu kompromittieren und Hintertüren in KI/ML-Modelle einzubauen.

Wie beim Data Poisoning geht es auch bei gegnerischen Angriffen darum, die Datenpunkte eines Modells böswillig zu verändern, allerdings mit dem spezifischen Ziel, negative Ergebnisse zu erzielen. In der physischen Welt könnten Angreifer Straßenmarkierungen oder Schilder mit Klebeband versehen, um selbstfahrende Autos zu verwirren und zu gefährlichen Fahrmanövern zu verleiten. In der digitalen Welt könnten Cyberkriminelle stattdessen subtile Änderungen an Daten vornehmen, um ein Modell dazu zu bringen, betrügerisches Verhalten als legitim zu klassifizieren.

Modell-Diebstahl

Beim KI-Modelldiebstahl exfiltrieren böswillige Akteure Dateneingaben und -ausgaben, um ein Modell zurückzuentwickeln und ein ähnliches Modell zu einem Bruchteil der Kosten zu erstellen. Die Umsatzeinbußen für die Opfer von Modelldiebstahl können enorm sein, da die Erstellung des Originalmodells wahrscheinlich mehrere Millionen Dollar gekostet hat.

Modelldiebstahl stellt auch ein großes Problem bei Modellen dar, die zur Aufdeckung von Verbrechen, zum Schutz von Vermögenswerten oder zur Durchführung anderer wichtiger Aufgaben entwickelt wurden. Wenn Kriminelle in der Lage sind, genügend Daten zu stehlen, um ein Modell zur Erkennung von Überweisungsbetrug neu zu erstellen, können sie neue Betrugsmethoden entwickeln, die eine Entdeckung besser vermeiden.

Online-Systemangriffe

Online-Systemangriffe sind eine weitere Form des Data Poisoning. Anstatt Sicherheitsschwachstellen auszunutzen, um Daten heimlich von innen heraus zu manipulieren, arbeiten Online-Systemangreifer in der Regel mit KI-Modellen, die Benutzerfeedback ermöglichen. Anstatt hilfreiches Feedback zur Feinabstimmung des Modells einzugeben, geben diese Angreifer bösartige Daten ein, um das System zu beeinflussen und das Ergebnis zu beeinflussen.

Risiken für Cloud-Anbieter

Da die Cloud skalierbare Datenverarbeitung und anpassbare Tools bietet, werden KI/ML-Trainingsdaten fast immer bei Cloud-Anbietern in Objektspeichern, Data Lakes usw. gespeichert. Die Sicherheitsherausforderungen der Cloud, vom Modell der geteilten Verantwortung bis hin zu Fragen des Zugriffs durch Dritte, sind gut dokumentiert. Von öffentlichkeitswirksamen Vorfällen mit großen Unternehmen bis hin zu kleineren Sicherheitsverletzungen, die einzelne Benutzer betreffen, bleiben die Schwachstellen, die durch unbefugten Zugriff entstehen, ein dringendes Problem für alle Organisationen.

Die Cloud wirft jedoch auch Probleme auf, die für die KI/ML-Landschaft einzigartig sind. So befürchten einige Dateneigentümer, dass Cloud-Administratoren KI/ML-Trainingsdaten abgreifen könnten, um sie in ihren eigenen Modellen zu verwenden. Obwohl das Abgreifen von Kundendaten wahrscheinlich rechtlich angefochten werden würde, gibt es derzeit nur wenige Gesetze, die den Umgang von Cloud-Anbietern mit KI/ML-Daten regeln.

Ransomware-Angriffe

Es mag einem so vorkommen, als würde man ständig von Ransomware hören, aber das liegt daran, dass sie immer noch eine große Bedrohung darstellt. Große Datenspeicher, wie sie für KI/ML-Trainingsdaten verwendet werden, sind immer ein Ziel für Angreifer, da sie eine gute Gelegenheit bieten, wertvolles Material zu exfiltrieren. Die Opfer sind auch eher bereit, Lösegeld zu zahlen, da die Sperrung von Daten die Zeitpläne für die Veröffentlichung von KI-Produkten stören und die ohnehin schon erheblichen Kosten für Ausfallzeiten erhöhen kann.

Datenschutz und Compliance-Herausforderungen

Schließlich stellen KI/ML-Daten große Herausforderungen für den Datenschutz, die Vertraulichkeit und die Einhaltung von Vorschriften dar. Da KI-Technologien große Mengen an personenbezogenen und sensiblen Daten sammeln, verarbeiten und analysieren, ist die Gewährleistung des Datenschutzes von entscheidender Bedeutung. Je nach Größe und Gerichtsbarkeit einer Organisation muss diese möglicherweise Vorschriften wie die Allgemeine Datenschutzverordnung der EU (GDPR) und den California Consumer Privacy Act (CCPA) einhalten, wenn ihre Schulungsdaten PII, PHI oder andere personenbezogene Daten enthalten.

In Branchen wie dem Gesundheits- und Finanzwesen, in denen KI sensible Daten wie Krankenakten und Finanzinformationen verarbeitet, ist die Gewährleistung der Vertraulichkeit von Daten sogar noch wichtiger. Daher haben einige Experten ein umfassendes Bundesdatenschutzgesetz zur Regelung von KI/ML-Daten gefordert.

Wie ShardSecure KI/ML-Modelle und Trainingsdaten schützt

ShardSecure bietet eine innovative Softwarelösung zum Schutz von KI/ML-Modellen und Trainingsdaten in der Cloud, einschließlich Hybrid- und Multi-Cloud-Architekturen. Unsere Plattform bietet fortschrittliche Datensicherheit für KI-Datensätze und verhindert den unbefugten Zugriff Dritter durch Cyberangreifer und Cloud-Administratoren gleichermaßen.

Der innovative Ansatz von ShardSecure für die Verschlüsselung auf Dateiebene bietet große Vorteile für die Einhaltung von Vorschriften und Bestimmungen wie GDPR und SOC 2. Außerdem unterstützt er die Vertraulichkeit und den Schutz von Daten für KI/ML-Modelle und Trainingsdaten. Durch hohe Verfügbarkeit, regelmäßige Integritätsprüfungen und Selbstheilungsprozesse sowie Funktionen wie Objektsperrung und unveränderliche Speicherung sorgt ShardSecure dafür, dass wertvolle KI-Datensätze in der Cloud verfügbar, genau und sicher bleiben.

Wenn Sie mehr erfahren möchten, werfen Sie einen Blick auf unsere Lösungsübersicht zum Schutz von KI/ML-Daten oder sehen Sie sich den Kamingespräch in voller Länge an.


Sources

AI in Health Care: Applications, Benefits, and Examples | Coursera

AI in Finance | OECD Business and Finance Outlook 2021

The Size and Quality of a Data Set | Google for Developers

Protecting AI Models from “Data Poisoning” | IEEE Spectrum

Model Stealing Defense against Exploiting Information Leak through the Interpretation of Deep Neural Nets | International Joint Conference on Artificial Intelligence

Human Error the Leading Cause of Cloud Data Breaches | Infosecurity Magazine

Ransomware: The Data Exfiltration and Double Extortion Trends | Center for Internet Security

What Does AI Need? A Comprehensive Federal Data Privacy and Security Law | International Association of Privacy Professionals

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden

Bleiben Sie informiert!

  • Newsletter jeden 2. Dienstag im Monat
  • Inhalt: Webinare, Studien, Whitepaper
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Klicken Sie auf den unteren Button, um den Inhalt von Google reCAPTCHA zu laden.

Inhalt laden