Von Andy Reese
Letzte Woche das Europäische Parlament fortschrittlich Das vorgeschlagene EU-KI-Gesetz wird in die Section der abschließenden Verhandlungen innerhalb des Blocks gebracht, wo der Wortlaut des Gesetzes durch eine Reihe von Verhandlungen zwischen EU-Gremien finalisiert wird.
Auch wenn die Verabschiedung des Gesetzes wahrscheinlich nur noch Monate entfernt ist, stehen Knowledge-Science-Groups bereits vor einem drohenden Rätsel: Die Bestimmungen des Gesetzes stehen in besorgniserregender Weise im Widerspruch zu den aktuellen Knowledge-Science-Praktiken in mehreren wichtigen Punkten.
Daher sollten Datenwissenschafts- und ML-Praktiker in Unternehmen, die KI/ML nutzen, jetzt damit beginnen, sich auf die Einhaltung wichtiger Bestimmungen des Gesetzes vorzubereiten, einschließlich derjenigen im Zusammenhang mit Daten und Datenverwaltung.
Was steht im Gesetz?
Das Gesetz legt Anforderungen an diejenigen fest, die KI-Systeme entwickeln und einsetzen, abhängig von der dem KI-System zugewiesenen Risikostufe. Das Gesetz würde Systeme, die ein inakzeptables Risiko darstellen, wie Social Scoring, biometrische Echtzeit-ID-Systeme in öffentlichen Räumen, vorausschauende Polizeiarbeit und das Auslesen von Gesichtsbildern aus dem Web oder CCTV-Aufnahmen zur Erstellung von Gesichtserkennungsdatenbanken gänzlich verbieten.
Ein Großteil des Gesetzes ist jedoch sogenannten „Hochrisiko“-Systemen gewidmet, die einen erheblichen Schaden für die Gesundheit, Sicherheit, Grundrechte oder die Umwelt der Menschen darstellen würden. Für diese Systeme legt das Gesetz umfangreiche Anforderungen fest, unter anderem in Bezug auf Daten und Datenverwaltung.
Gemäß dem Gesetz müssen Unternehmen sicherstellen, dass sie „angemessene Knowledge-Governance-Administration-Praktiken“ auf Schulungs-, Validierungs- und Testdatensätze anwenden. Sie müssen außerdem sicherstellen, dass ihre Daten die in Artikel 10 festgelegten Qualitätskriterien erfüllen und dass sie Verfahrens- und Dokumentationsanforderungen einhalten, einschließlich:
- Befolgen relevanter Governance-Praktiken für die Datennutzung
- Verwendung geeigneter Designentscheidungen und Datenerfassungsmethoden
- Analysieren Sie Datensätze auf Lücken und Mängel und erstellen Sie Bewertungspläne zur Behebung dieser Probleme
- Überprüfung von Datensätzen auf mögliche Verzerrungen
- Verwendung geeigneter Datenaufbereitungs-, Kennzeichnungs-, Bereinigungs-, Anreicherungs- und Aggregationsverfahren
- Formulieren von Annahmen im Zusammenhang mit den Daten
- Bewertung der Verfügbarkeit, Menge und Eignung von Datensätzen für die geplante KI-Anwendung
- Sicherstellen, dass Datensätze related, repräsentativ, fehlerfrei und vollständig sind
- Sicherstellen, dass Datensätze insgesamt und für Gruppen geeignete statistische Eigenschaften aufweisen, für die das System verwendet wird
- Verwendung von Datensätzen, die für bestimmte geografische, verhaltensbezogene oder funktionale Einstellungen repräsentativ sind, in denen das System verwendet wird
Auswirkungen auf die Datenwissenschaft
A aktuelle Analyse Forscher der Stanford College, die sich mit Stiftungsmodellen befassten, stellten fest, dass das EU-KI-Gesetz Organisationen, die diese Modelle nutzen, vor Herausforderungen stellen würde, insbesondere im Hinblick auf die Berichterstattung über urheberrechtlich geschütztes Materials.
Die Anforderungen des Gesetzes werden jedoch zu größeren Compliance-Herausforderungen für Datenwissenschaftler führen, die mit allen Arten von KI-Systemen arbeiten, da diese Anforderungen offen gesagt in mehreren Bereichen im Widerspruch zu den aktuellen datenwissenschaftlichen Praktiken stehen:
1) Erfordernis einer gründlichen Datenanalyse: Viele Knowledge-Science-Groups verbringen heutzutage nicht ausreichend Zeit mit der explorativen Datenanalyse (EDA) oder der Analyse von Datenverteilungen, bevor sie mit der Modellierung beginnen. Selbst wenn dies der Fall ist, geschieht dies normalerweise nur, wenn das Modell zum ersten Mal erstellt wird, und nicht, wenn Aktualisierungen daran vorgenommen werden.
Damit Datenwissenschaftler und Dateningenieure die Anforderungen des Gesetzes erfüllen können, müssen sie regelmäßig Datenverteilungs- und Bias-Prüfungen für jeden von ihnen verwendeten Datensatz durchführen. Dies erfordert den Einsatz von Automatisierung und Instruments, einschließlich Instruments für EDA, Datenüberwachungstools und Instruments zur Verzerrungserkennung.
2) Daten dokumentieren: Im Bereich der Datenwissenschaft mangelt es im Allgemeinen an Dokumentation, und die Datendokumentation für Trainings-, Check- oder Validierungsdaten ist nicht anders. Nach dem Gesetz reicht es nicht aus, Assessments durchzuführen. Es ist außerdem wichtig, die Ergebnisse und alle nachfolgenden Analysen systematisch zu dokumentieren, um die Sorgfaltspflicht nachzuweisen.
(Anbieter von Basismodellen, die für generative KI-Systeme wie ChatGPT verwendet werden, hätten zusätzliche Anforderungen, detaillierte Zusammenfassungen aller urheberrechtlich geschützten Daten, die für das Coaching verwendet werden, öffentlich zugänglich zu machen.)
Beachten Sie, dass die gesamte Dokumentation bei richtiger Implementierung als Nebeneffekt neuen Datenwissenschaftlern, die an einem Projekt arbeiten, Verbrauchern des Modells und Governance-Groups helfen könnte.
3) Dokumentation von Anwendungs- und Lückendaten: Abschließend magazine dies offensichtlich klingen, aber es wird häufig übersehen, dass eine bestimmte Datenverteilung eine Reihe von Auswirkungen auf Anwendung A, aber ganz unterschiedliche Auswirkungen auf Anwendung B haben kann.
Beispielsweise kann der populäre Volkszählungs-Einkommensdatensatz intestine für die Schätzung des Einkommens von Erwachsenen in den USA geeignet sein. Es wäre jedoch ein schlechter Datensatz, um Tendencies bei der Nutzung sozialer Medien durch Teenager zu untersuchen. Daher ist die Analyse und Dokumentation der Analyse der Datensätze im Hinblick auf die Anwendung von entscheidender Bedeutung.
Bereiten Sie sich auf Compliance vor
Datenwissenschaftsteams können sich jetzt auf die Einhaltung des EU-KI-Gesetzes vorbereiten, indem sie gemeinsam mit ihren Kollegen aus den Bereichen Datenteams, Governance, Risiko, Recht und IT die Bestimmungen des Gesetzes überprüfen und verstehen. Zusätzliche Schritte:
- Identifizieren Sie derzeit verwendete Datensätze (einschließlich Trainings-, Validierungs- und Testdatensätze), um die Qualität, Merkmale, Lücken und Mängel dieser Datensätze in Bezug auf Relevanz, Repräsentativität, Fehler, Verzerrungen und statistische Eigenschaften zu bewerten.
- Stellen Sie die Einhaltung von Richtlinien und Protokollen für die Datenerfassung, -speicherung, -freigabe und -nutzung sicher.
- Dokumentieren Sie den gesamten Datenlebenszyklus und führen Sie eine klare und detaillierte Dokumentation der getroffenen Annahmen zu den Daten und aller datenbezogenen Entscheidungen durch.
- Implementieren Sie Prozesse zur Bewertung und Minderung von Verzerrungen in den Daten sowie Mechanismen, um die Qualität der verwendeten Datensätze sicherzustellen.
- Bewerten Sie regelmäßig die Verfügbarkeit, Menge und Eignung von Datensätzen, um sicherzustellen, dass sie die Zielanwendungsfälle angemessen abdecken und für den beabsichtigten Zweck des KI-Methods geeignet sind.
- Nutzen Sie Instruments wie einen Modellkatalog mit robusten Governance-Funktionen, wie konfigurierbaren Checklisten, Dokumentationsunterstützung und Unterstützung für die Zusammenarbeit verschiedener Stakeholder rund um die Zusammenarbeit.
Am wichtigsten ist vielleicht, dass Knowledge-Science-Groups eine Kultur der verantwortungsvollen Datennutzung entwickeln, die Datenpraktiken kontinuierlich verbessern und Transparenz und Verantwortlichkeit im gesamten Lebenszyklus des ML-Modells gewährleisten können. Dies wird dazu beitragen, sicherzustellen, dass sie vorbereitet sind, wenn die Bestimmungen des EU-KI-Gesetzes in Kraft treten.
Mit einem Modellkatalog können Sie alle Ihre Modelle zentralisieren, organisieren, dokumentieren und verwalten, während Sie sich auf die Einhaltung des EU-KI-Gesetzes und anderer aktueller und bevorstehender KI-Gesetze und -Vorschriften vorbereiten. Erfahren Sie mehr.