Wie differenzierter Datenschutz funktioniert
Wie in Abbildung 2 dargestellt, fügt der Kurator dem Ergebnis zufälliges Rauschen (z. B. DP-Sanitizer) hinzu, um sicherzustellen, dass niemand zuverlässig auf die Informationen einer Particular person aus dem Berechnungsergebnis schließen kann, so dass sich das veröffentlichte Ergebnis nicht ändern würde, wenn die Informationen einer Particular person über das zugrunde liegende Ergebnis verloren gehen Datenänderungen. Da die Informationen einer einzelnen Particular person keinen wesentlichen Einfluss auf die Verbreitung haben können, können Gegner nicht sicher auf solche Informationen schließen, die einer Particular person zuzuordnen sind.
Lassen Sie uns unser vorheriges Szenario fortsetzen und sehen, was passieren würde, wenn das Privatunternehmen den Abfrageergebnissen (dh der Gesamtzahl der Mitarbeiter und den Durchschnittsgehältern) zufälliges Rauschen hinzugefügt hätte, bevor es sie an die Nachrichtenreporter Alice und Bob gesendet hätte.
Angenommen, in unserem vorherigen Szenario hätte das non-public Unternehmen ein anderes fortschrittliches privates Informationsaustauschprotokoll verwendet, wie in Abbildung 3 dargestellt, bei dem bestimmte zufällige Geräusche zu den aggregierten Statistiken hinzugefügt würden, die aus der Datenbank des Unternehmens berechnet wurden, bevor sie an Nachrichtenreporter weitergegeben würden.
Daher schrieb Alice im Januar einen Artikel auf der Grundlage der Informationen aus dieser Datenbank (Zugriff im Januar), in der sie berichtete, dass das Privatunternehmen 103 Mitarbeiter hat (wobei 100 die tatsächliche Zahl und 3 der zusätzliche Lärm ist) und die Das durchschnittliche Gehalt beträgt 55.500 US-Greenback (wobei 55.000 US-Greenback der tatsächliche Wert und 500 US-Greenback der Mehrwert sind).
Im Februar würde Bob einen weiteren Artikel schreiben, basierend auf den Informationen, die er auf die gleiche Weise aus dieser Datenbank erhalten hatte (aber im Februar abgerufen), in dem er berichtete, dass das Privatunternehmen 99 Mitarbeiter hat (wobei 101 die tatsächliche Zahl und -2 das zusätzliche Rauschen ist). und das durchschnittliche Gehalt beträgt 55.600 US-Greenback (wobei 56.000 US-Greenback der tatsächliche Wert und -400 US-Greenback der zusätzliche Lärm sind).
Zu diesem Zeitpunkt hat die verrauschte Model der Gesamtzahl der Mitarbeiter und des Durchschnittsgehalts keinen großen Einfluss auf die Tatsache, dass die Informationen des Privatunternehmens in den öffentlichen Nachrichtenberichten erscheinen (z. B. liegt die Anzahl der Mitarbeiter bei etwa 100 und das Durchschnittsgehalt). liegt bei etwa 55.000 bis 56.000 US-Greenback). Allerdings könnte dies Eve effektiv daran hindern, zu dem Schluss zu kommen, dass zwischen Januar und Februar ein neuer Mitarbeiter zu diesem privaten Unternehmen stößt (seit 99–104=-5), und sein/ihr Gehalt herauszufinden, wodurch das Risiko verringert wird, dass Mallorys persönliche Daten preisgegeben werden solche Nachrichtenberichte.
Dieses Beispiel verdeutlicht uns die Idee, wie differenzierter Datenschutz funktioniert, indem den aggregierten Daten vor der Veröffentlichung zufälliges Rauschen hinzugefügt wird. Die nächste Frage wäre, wie viel Rauschen wir für jede DP-Anwendung hinzufügen sollten. Um diese Frage zu beantworten, möchten wir die „Sensibilität“ und das „Datenschutzbudget“ innerhalb der DP-Anwendungen vorstellen.
DIE „EMPFINDLICHKEIT“ VON DP-ANWENDUNGEN
Eines der zentralen technischen Probleme bei DP besteht darin, die Menge an zufälligem Rauschen zu bestimmen, das den aggregierten Daten vor der Veröffentlichung hinzugefügt werden soll. Das Zufallsrauschen kann nicht von einer beliebigen Zufallsvariablen stammen.
Wenn das zufällige Rauschen zu gering ist, kann es die privaten Informationen jedes Einzelnen nicht ausreichend schützen. Wenn Alice beispielsweise berichtet hat, dass das Unternehmen 100,1 Mitarbeiter beschäftigt (d. h. +0,1 Lärm) und das Durchschnittsgehalt 55.000,1 US-Greenback beträgt (d. h. +0,1 US-Greenback Lärm), während Bob im Februar berichtet hat, dass das Privatunternehmen 101,2 Mitarbeiter hat (d. h +0,2 Lärm) und das durchschnittliche Gehalt 55.999,9 US-Greenback beträgt (d. h. -0,1 Lärm), könnte Eve dennoch daraus schließen, dass höchstwahrscheinlich ein neuer Mitarbeiter in dieses Unternehmen eingetreten ist und sein/ihr Gehalt etwa 155.979,9 US-Greenback beträgt, was mit 156.000 US-Greenback identisch ist, dem wahren Wert .
Im Gegenteil, wenn das Zufallsrauschen zu groß ist, wären die veröffentlichten aggregierten Daten verzerrt und bedeutungslos und hätten somit keinen Nutzen. Wenn Alice beispielsweise berichtete, dass das non-public Unternehmen 200 Mitarbeiter hat (d. h. +100 Lärm) und das Durchschnittsgehalt 65.000 $ beträgt (d. h. +10.000 $ Lärm), während Bob berichtete, dass das non-public Unternehmen 51 Mitarbeiter hat (d. h. -50 Lärm) und das durchschnittliche Gehalt beträgt beträgt 50.000 US-Greenback (additionally -6.000 US-Greenback Lärm), auch wenn nahezu keine privaten Informationen des Mitarbeiters preisgegeben werden, enthalten solche Berichte keine aussagekräftigen Informationen über die tatsächliche State of affairs.
Wie können wir additionally entscheiden, wie viel Zufallsrauschen den aggregierten Daten hinzugefügt werden soll, bevor wir sie auf sinnvolle und wissenschaftliche Weise veröffentlichen? Grob gesagt sollte bei einer Anwendung oder Analyse, die aggregierte Daten zu einem Datensatz veröffentlichen muss, die Menge an zufälligem Rauschen, das solchen aggregierten Daten hinzugefügt werden soll, proportional zum größtmöglichen Unterschied zwischen den privaten Informationen einer Particular person (z. B. einer Zeile innerhalb einer Datenbank) sein Tabelle) könnte zu diesen aggregierten Daten führen.
Im DP-Bereich nennen wir „den größtmöglichen Unterschied, den die privaten Informationen einer Particular person bewirken könnten“ die „Sensibilität“ des DP-Antrags. Die „Sensitivität“ misst normalerweise den maximal möglichen Einfluss der Informationen jedes Einzelnen auf das Ergebnis der Analyse.
In unserem Szenario „Privatunternehmen“ müssen beispielsweise zwei aggregierte Daten veröffentlicht werden: die Gesamtzahl der Mitarbeiter und das Durchschnittsgehalt. Da der Austritt eines alten Mitarbeiters oder der Eintritt eines neuen Mitarbeiters höchstens einen Unterschied von „+1“ oder „-1“ zur Gesamtzahl der Mitarbeiter ausmachen kann, liegt die Sensitivität bei „1“. Was das Durchschnittsgehalt betrifft, da verschiedene Mitarbeiter (mit unterschiedlichen Gehältern), die das Unternehmen verlassen/eintreten, unterschiedliche Auswirkungen auf das Durchschnittsgehalt haben können, und „der größtmögliche Unterschied“ von dem Mitarbeiter ausgehen sollte, der das höchstmögliche Gehalt hat, additionally dessen Sensibilität sollte proportional zum „höchsten Gehalt“ sein.
Normalerweise wäre es schwierig, die genaue Empfindlichkeit für eine beliebige Anwendung zu berechnen, und manchmal müssen wir die Annäherung an bestimmte Empfindlichkeiten schätzen.
Für DP gibt es kein kostenloses Mittagessen – Einführung des „Datenschutzbudgets“
Wie wir gerade besprochen haben, ist es wichtig, die angemessene Menge an zufälligem Rauschen zu bestimmen, das bei der Anwendung von DP hinzugefügt werden soll, und dieses zufällige Rauschen sollte proportional zur Empfindlichkeit der Anwendungen sein (z. B. Mittelwertschätzung, Häufigkeitsschätzung, Regression, Klassifizierung usw.). . Aber „proportional“ ist ein unscharfes Wort, das kann ein kleiner Anteil oder ein großer Anteil sein. Gibt es additionally noch etwas, das wir bei der Bestimmung der tatsächlichen Menge an zufälligem Rauschen berücksichtigen sollten, das hinzugefügt werden soll?
Betrachten wir zunächst unser „Privatunternehmen“-Szenario, das DP anwendet, bei dem den Abfrageergebnissen (vor und nach dem Eintritt von Mallory in das Unternehmen) der Datenbank ein zufälliges Rauschen hinzugefügt wurde und die Nachrichtenreporter (d. h. Alice und Bob) möchten um das Durchschnittsgehalt dieses Unternehmens anhand der „verrauschten“ Abfrageergebnisse zu schätzen, die sie abgerufen haben. Im Idealfall sollte diese Schätzung des Durchschnittsgehalts im Rahmen der Anwendung von DP gleich bleiben, unabhängig davon, ob ein Mitarbeiter, sagt Mallory, das Unternehmen verlässt oder hinzukommt. Um jedoch sicherzustellen, dass diese Eigenschaft „exakt gleich“ ist, müssen Mallorys Informationen vollständig aus dieser Studie ausgeschlossen werden. Wenn ja, würden wir mit dem gleichen Argument fortfahren und die persönlichen Daten jedes Mitarbeiters aus der Datenbank dieses Unternehmens ausschließen. In einem solchen Fall kann das geschätzte Durchschnittsgehalt nicht auf den Informationen eines Mitarbeiters beruhen und wäre daher bedeutungslos.
Um ein solches Dilemma zu vermeiden, verlangt DP, dass die Ergebnisse der Analyse „ungefähr gleich“, aber nicht „exakt gleich“ bleiben, mit oder ohne Mallorys Informationen. Mit anderen Worten: DP lässt eine geringfügige Abweichung zwischen dem Ergebnis der Analyse mit oder ohne Angaben einer Particular person zu. Die „erlaubte Abweichung“ gilt auch als „Datenschutzbudget“ für DP. Wenn jemand mehr zulässige Abweichungen mit oder ohne seine/ihre Daten tolerieren könnte, könnte er/sie mehr Datenschutzverluste tolerieren und hätte somit mehr Datenschutzbudget zur Verfügung.
Der griechische Buchstabe 𝜖 (Epsilon) wurde zur Darstellung eines solchen „Datenschutzbudgets“ verwendet, um das Ausmaß der zulässigen Abweichung zu quantifizieren. Wie bereits erwähnt, wird das Datenschutzbudget 𝜖 in der Regel von den Dateneigentümern festgelegt, um das erforderliche Maß an Datenschutz abzustimmen. Ein kleinerer Wert von 𝜖 führt zu einer kleineren zulässigen Abweichung (d. h. einem geringeren Datenschutzbudget) und ist somit mit einem stärkeren Datenschutz, aber einer geringeren Genauigkeit für den Nutzen verbunden. Für DP gibt es kein kostenloses Mittagessen. Zum Beispiel können wir 𝜖 auf Null setzen, was ein Datenschutzbudget von Null ermöglicht und perfekten Datenschutz bietet, was gemäß der Definition von DP keinen Datenschutzverlust bedeutet. Das Ergebnis der Analyse wäre immer dasselbe, unabhängig davon, wessen Informationen hinzugefügt oder entfernt wurden. Allerdings erfordert dies, wie bereits erwähnt, auch das Ignorieren aller verfügbaren Informationen und würde daher keine aussagekräftigen Ergebnisse liefern. Was wäre, wenn wir 𝜖 auf 0,1 setzen würden, eine kleine Zahl, aber größer als Null? Die zulässige Abweichung mit oder ohne die Informationen einer Particular person wäre gering und würde einen stärkeren Schutz der Privatsphäre bieten und gleichzeitig den Datennutzern (z. B. Nachrichtenreportern) ermöglichen, etwas Sinnvolles zu lernen.
In der Praxis ist 𝜖 normalerweise eine kleine Zahl. Für statistische Analyseaufgaben (z. B. Mittelwert-/Häufigkeitsschätzung) wird 𝜖 normalerweise zwischen etwa 0,001 und 1,0 eingestellt. Für maschinelles Lernen oder Deep-Studying-Aufgaben wird 𝜖 normalerweise zwischen etwa 0,1 und 10,0 eingestellt.
FORMULIERUNG DER DP-LÖSUNG FÜR DAS SZENARIO „PRIVATE UNTERNEHMEN“.
Nun haben Sie wahrscheinlich eine allgemeine Vorstellung vom Konzept von DP und davon, wie Sie das zufällige Rauschen basierend auf der Empfindlichkeit der Anwendung und dem vom Dateneigentümer festgelegten Datenschutzbudget ableiten können. Lassen Sie uns sehen, wie wir solche Techniken mathematisch in unserem vorherigen „Privatunternehmen“-Szenario anwenden können.