Une alternative aux méthodes suppressives ?
DMS/DMRG
03/10/2024
Les enjeux
Exemple d’application de la méthode suppressive
Catégorie \ Sexe | Hommes | Femmes | Total |
---|---|---|---|
ABC | 1 | 10 | 11 |
DE | 12 | 14 | 26 |
Total | 13 | 24 | 37 |
Catégorie \ Sexe | Hommes | Femmes | Total |
---|---|---|---|
ABC | s | s | 11 |
DE | s | s | 26 |
Total | 13 | 24 | 37 |
Les outils utilisés: $\tau$-Argus
(CBS) et rtauargus
(développé à la DMRG)
Les enjeux
Pour l’utilisateur :
Les enjeux
La différenciation géographique
Les enjeux
Le problème de la diffusion sur mesure
Les enjeux
Autres limites
Les enjeux
➡️ Pour répondre au mieux aux enjeux actuels et futurs, on recherche une méthode qui :
Les enjeux
Aller chercher ailleurs
Aucune méthode suppressive ne répondra aux enjeux 2 à 5 sauf à réduire drastiquement la diffusion.
\(\Rightarrow\) Chercher une solution du côté des méthodes perturbatrices
Les enjeux
diff géo | sur mesure | central. | implément. | |
---|---|---|---|---|
Arrondi des petits comptages | Non | Non | Non | Oui |
Target Record Swapping | Non | Oui | Oui | Non |
Arrondi déterministe | Oui | Oui | Oui | Oui |
Arrondi aléatoire | Oui | Non* | Oui | Oui |
Mécanisme de bruit DP | Oui | Oui* | Oui | Non* |
Données synthétiques | Oui | Oui | Oui | Non |
Méthodes des clés aléatoires | Oui | Oui | Oui | Oui |
Les enjeux
Incohérence des requêtes entre elles
Pour certaine méthode, deux requêtes successives peuvent fournir des informations différentes.
Les enjeux
Inconsistance des comptages entre eux
Par exemple, Si \(H+F=T\), toutes les méthodes ne garantissent pas que \(H' \leq T'\) et que \(F' \leq T'\).
(\(H'\) étant la version perturbée de \(H\)).
Les enjeux
Perte d’additivité
Si \(H+F=T\), toutes les méthodes ne garantissent pas que \(H'+F'=T'\).
Les enjeux
Inconsistance des ratios (découle des deux points précédents):
Par exemple, \(\frac{H'}{T'} > 1\) ou \(\frac{H'}{T'} > 1\)
Les enjeux
requêtes | comptages | additivité | |
---|---|---|---|
Arrondi des petits comptages | Non | Oui* | Oui* |
Target Record Swapping | Oui | Oui | Oui |
Arrondi déterministe | Oui | Oui | Oui |
Arrondi aléatoire | Non | Non | Non |
Mécanisme de bruit DP | Non | Oui* | Non |
Données synthétiques | Oui | Oui | Oui |
Méthodes des clés aléatoires | Oui | Non | Non |
Les enjeux
Principes de la méthode
👍 Avantages de la méthode des clés aléatoires
👎 Limites de la méthode des clés aléatoires
Remarque
La Perte d’addivité peut aussi être vue comme une mesure supplémentaire de protection
ptable
et cellKey
Principes de la méthode
Probabilité de transition
\(p_{ij}\) est la probabilité que le comptage après perturbation soit \(j\) si le compte original vaut \(i\).
Principes de la méthode
Paramètres de la méthode
Principes de la méthode
Effet d’une déviation injectée indépendamment dans chaque cellule
Catégorie \ Sexe | Hommes | Femmes | Total |
---|---|---|---|
ABC | 1 | 10 | 11 |
DE | 12 | 14 | 26 |
Total | 13 | 24 | 37 |
Catégorie \ Sexe | Hommes | Femmes | Total |
---|---|---|---|
ABC | 0 | 11 | 13 |
DE | 14 | 13 | 26 |
Total | 12 | 22 | 35 |
Principes de la méthode
\(D\) et \(V\) étant fixés, pour une valeur originale \(i \geq D\) (cas général),
On cherche à déterminer les \(p_{ij} = \mathbb{P}(X'=j|x=i)\) avec:
Principes de la méthode
\(D\) et \(V\) étant fixés, pour une valeur originale \(i\), on cherche la distribution de probabilités des \(p_{ij}\) tels que:
\[\begin{equation} \begin{aligned} \max_{p_{ij}} \quad & \sum_{j=i-D}^{i+D}{p_{ij} \cdot \log(p_{ij})}\\ \textrm{s.t.} \quad & \sum_{j=i-D}^{i+D}{ p_{ij}} = 1\\ & \mathbb{E}[X'|X=i] = \sum_{j=i-D}^{i+D}{ j \cdot p_{ij}} = i\\ & \mathbb{V}[X'|X=i] = V \\ \end{aligned} \end{equation}\]
Principes de la méthode
Remarques
ptable
.Principes de la méthode
Principes de la méthode
Scénario 1 (Vert) | Scénario 2 (Orange) | Scénario 3 (Violet) | |
---|---|---|---|
Variance | 0.5 | 1 | 10 |
% de chances qu’une valeur ne soit pas déviée | 56% | 38% | 20% |
% de chances qu’une valeur subisse une déviation maximale (-2 ou +2) | 2% | 13% | 40% |
Conservation de l’information | ++ | + | – |
Niveau de protection | – | + | ++ |
Remarque
\(D\) et surtout \(V\) ont une influence directe sur le compromis Risque/Utilité.
Principes de la méthode
Dans le cas où \(i < D\),
Principes de la méthode
Principes de la méthode
Principes de la méthode
Principes de la méthode
Le mécanisme de bruitage ne suffit pas !
Deux requêtes identiques réalisées successivement ne fourniront pas le même résultat.
\(\Rightarrow\) Il n’assure de lui-même pas la cohérence des requêtes entre elles.
Principes de la méthode
Le mécanisme de bruitage ne suffit pas !
Deux requêtes identiques réalisées successivement ne fourniront pas le même résultat.
\(\Rightarrow\) Il n’assure de lui-même pas la cohérence des requêtes entre elles.
Solution proposée par la CKM
Principes de la méthode
Le processus de bruitage de la méthode des clés aléatoires peut être décomposé en \(4\) étapes:
Le processus complet de bruitage
id | Commune de résidence | Âge | Clé |
---|---|---|---|
1 | Amiens | 25 | 0,9177275 |
2 | Paris | 20 | 0,8850062 |
3 | Marseille | 45 | 0,6266963 |
4 | Amiens | 45 | 0,1117820 |
5 | Marseille | 20 | 0,6496634 |
6 | Marseille | 20 | 0,2813433 |
Le processus complet de bruitage
On dénombre les individus et on agrège les clés.
Commune de résidence | ids | Effectif | Somme des clés | Clé de la case |
---|---|---|---|---|
Amiens | {1,4} | 2 | 1,0295095 | 0,0295095 |
Marseille | {3,5,6} | 3 | 1,5577030 | 0,5577030 |
Paris | {2} | 1 | 0,8850062 | 0,8850062 |
Total | {1,2,3,4,5,6} | 6 | 2,7722187 | 0,7722187 |
Le processus complet de bruitage
Clé de cellule - Cell Key
Une clé est associée à chaque cellule d’un tableau:
Le processus complet de bruitage
A partir de la matrice de transition obtenue pour \(D=2\) et \(V=1\):
Effectif original | dev.=-2 | dev.=-1 | dev.=0 | dev.=+1 | dev.=+2 |
---|---|---|---|---|---|
1 | 0,37 | 0,36 | 0,17 | 0,1 | |
2 ou plus | 0,06 | 0,25 | 0,38 | 0,25 | 0,06 |
Le processus complet de bruitage
On en déduit la table de perturbation suivante:
Effectif original | dev.=-2 | dev.=-1 | dev.=0 | dev.=+1 | dev.=+2 |
---|---|---|---|---|---|
1 | [0 ; 0,37[ | [0,37 ; 0,73[ | [0,73 ; 0,9[ | [0,9 ; 1[ | |
2 ou plus | [0 ; 0,06[ | [0,06 ; 0,31[ | [0,31 ; 0,69[ | [0,69 ; 0,94[ | [0,94 ; 1[ |
Exemple
\(X = 2\) et \(ck_c = 0,25 \in [0,06 ; 0,31]\), alors \(X' = 2 - 1 = 1\)
Le processus complet de bruitage
Pour chaque cellule, on repère la déviation à appliquer dans la table de perturbation en fonction de \(i\) et de la clé.
Clé de la case | Intervalle de Perturbation | Effectif | Bruit à injecter | Effectif perturbé | |
---|---|---|---|---|---|
Amiens | 0,0295095 | [0 ; 0,06[ | 2 | -2 | 0 |
Marseille | 0,5577030 | [0,31 ; 0,69[ | 3 | 0 | 3 |
Paris | 0,8850062 | [0,73 ; 0,9[ | 1 | +1 | 2 |
Total | 0,7722187 | [0,69 ; 0,94[ | 6 | +1 | 7 |
Le processus complet de bruitage
En calculant les effectifs par âge et en leur appliquant le processus décrit plus haut, on obtient la perturbation présentée dans le tableau 9, dans lequel on observera que le total est perturbé exactement de la même manière que dans le tableau 8.
Âge | ids | Clé de la case | Effectif | Bruit à injecter | Effectif perturbé |
---|---|---|---|---|---|
20 | {2,5,6} | 0,8160129 | 3 | +1 | 4 |
25 | {1} | 0,9177275 | 1 | +2 | 3 |
45 | {3,4} | 0,7384783 | 2 | +1 | 3 |
Total | {1,2,3,4,5,6} | 0,7722187 | 6 | +1 | 7 |
Principes de la méthode
Comment mesurer l’utilité ?
Bref, il existe de nombreuses façons de le faire.
Principes de la méthode
Comment mesurer le risque ?
Les probabilités de transition inverses
La probabilité \(q_{ij} = \mathcal{P}(X = i | X' = j)\) mesure la capacité d’un attaquant à deviner la vraie valeur de la cellule (\(X=i\)) étant donnée la valeur qui est diffusée (\(X'=j\)).
Par la formule de Bayes, on peut exprimer les \(q_{ij}\) en fonction des \(p_{ij}\):
\[q_{ij} = \mathcal{P}(X=i | X'=j) = \frac{\mathcal{P}(X'=j | X=i) \mathcal{P}(X=i)}{\mathcal{P}(X'=j)} = \frac{p_{ij} \mathcal{P}(X=i)}{\sum_k{p_{kj}\mathcal{P}(X=k)}}\]
Expérimentation QPV
Diffusion des QPV sur deux millésimes de contours:
Expérimentation QPV
Jeu de données : Pôle Emploi
Seuil de confidentialité : 5
Expérimentation réalisée sur \(6\) tableaux composés de \(\sim 395 000\) cellules uniques non nulles.
Méthodes envisagées:
Mécanismes probabilistes
Le mécanisme de perturbation de ces méthodes peut être décrit par des probabilités de transition \(p_{ij}\)
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
Définition
L’ensemble de déviation d’une valeur \(i\), noté \(\mathcal{D}_i\), est l’intervalle des valeurs qu’elle peut prendre après application de la perturbation.
Exemple: Si on arrondit aléatoirement \(i=8\) dans une base \(10\), l’ensemble de déviation \(\mathcal{D}_8 = \{ 0; 10\}\)
Définition
L’ensemble des possibles d’une valeur perturbée \(j\), noté \(\mathcal{D'}_j\), est l’intervalle des valeurs originales dont elle est possiblement issue.
Exemple: Si après l’application d’un arrondi aléatoire de base \(10\), \(j=0\), alors l’ensemble des possibles est \(\mathcal{D'}_0 = \{ 0; 1; 2; \dots 9 \}\).
\(\Rightarrow\) Permettent une première comparaison des trois méthodes.
Expérimentation QPV
L’expérimentation a consisté à comparé plusieurs scénarios:
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
SEXE
Expérimentation QPV
CATEG
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
Expérimentation QPV
Choix de la CKM avec valeurs sensibles interdites
Expérimentation QPV
Perspectives
Concrètement :
A terme ?
Expérimentation QPV
Références bibliographiques
[1] F. Bach, “Differential Privacy and Noisy Confidentiality Concepts for European Population Statistics”, Journal of Survey Statistics and Methodology, vol. 10, nᵒ 3, p. 642‑687, juin 2022, doi: 10.1093/jssam/smab044.
[2] J. Chipperfield, D. Gow, et B. Loong, “The Australian Bureau of Statistics and releasing frequency tables via a remote server”, SJI, vol. 32, nᵒ 1, p. 53‑64, févr. 2016, doi: 10.3233/SJI-160969.
[3] V. Costemalle, “Detecting geographical differencing problems in the context of spatial data dissemination”, SJI, vol. 35, nᵒ 4, p. 559‑568, déc. 2019, doi: 10.3233/SJI-190564.
[4] T. Enderle, S. Giessing, et R. Tent, “Designing Confidentiality on the Fly Methodology – Three Aspects”, in Privacy in Statistical Databases, vol. 11126, J. Domingo-Ferrer et F. Montes, Éd., in Lecture Notes in Computer Science, vol. 11126. , Cham: Springer International Publishing, 2018, p. 28‑42. doi: 10.1007/978-3-319-99771-1_3.
Références bibliographiques
[5] T. Enderle, S. Giessing, et R. Tent, “Calculation of Risk Probabilities for the Cell Key Method”, in Privacy in Statistical Databases, vol. 12276, J. Domingo-Ferrer et K. Muralidhar, Éd., in Lecture Notes in Computer Science, vol. 12276. , Cham: Springer International Publishing, 2020, p. 151‑165. doi: 10.1007/978-3-030-57521-2_11.
[6] B. Fraser et J. Wooton, “A Proposed Method for Confidentialising Tabular Output to Protect against Differencing”, in Monographs of Official Statistics: Work Session on Statistical Data Confidentiality, 2005, p. 299‑302.
[7] S. Gießing et R. Tent, “Concepts for generalising tools implementing the cell key method to the case of continuous variables”, in UNECE - Expert Meeting on Statistical Data Confidentiality, the Hague, oct. 2019.
[8] A. Hundepool et al., Handbook on Statistical Disclosure Control, 2nd Edition, ESSNet SDC, 2024. https://sdctools.github.io/HandbookSDC/
[9] N. Shlomo, “Statistical Disclosure Control Methods for Census Frequency Tables”, Int Statistical Rev, vol. 75, nᵒ 2, p. 199‑217, août 2007, doi: 10.1111/j.1751-5823.2007.00010.x.
Merci de votre attention
Retrouvez nous sur
Séminaire interne DMS