jeudi 08 mars 2018

Être anonyme n'est plus suffisant

Un monde qui relevait encore de l’imaginaire voici quelques années est en train de devenir réalité.

Yves-Alexandre de Montjoye (Membre du groupe du vendredi et Professeur à l’Imperial College London) et Julien Hendrickx (Professeur à l’UCL). Egalement paru dans L’Echo du 9 mars 2018.

Un monde qui relevait encore de l’imaginaire voici quelques années est en train de devenir réalité. Les voitures apprennent à rouler de manière autonome et les algorithmes d’intelligence artificielle (IA) remodèlent les soins médicaux, l'urbanisme et la recherche. L’IA est par exemple déjà utilisée pour identifier des molécules prometeuses pour le développement de médicaments et pour accélérer le diagnostic du cancer de la peau, atteignant une précision comparable à celle des dermatologues. L'IA est en train de changer notre économie et aura un impact radical sur la façon dont nous travaillons, vivons et interagissons.

Mais le secret bien gardé derrière la réalité de l'IA est que, si les techniques ont incontestablement évoluées et si la puissance de calcul a augmenté, une grande partie des progrès récents que nous avons observés sont dus à un nouvel accès aux données. Les likes que nous laissons sur Facebook, nos données médicales, nos recherches sur Google, nos transactions par carte de crédit ou coordonées GPS, des données que nous générons tous tout les jours, sont autant de manières pour les algorithmes d’apprendre et devenir ainsi plus intelligents.

La collecte et l'utilisation de ces données soulèvent des préoccupations en matière de protection de la vie privée qui doivent être abordées. Ces données contiennent des informations détaillées et souvent sensibles sur le comportement, les conditions médicales, les habitudes de voyage et le mode de vie des personnes. Par exemple, les données des compteurs intelligents révéleront les habitudes de sommeil ou les activités nocturnes d'une personne, tandis qu'il a été démontré que les données de téléphonie mobile peuvent être utilisées pour prédire le degré de neurotisme, d'extraversion du propriétaire du téléphone ou encore si celui-ci est un homme ou une femme.

Cependant, lorsqu'on soulève ces préoccupations, la réponse est souvent la même : l'algorithme (et ses concepteurs) n'a pas besoin de savoir qui est l'utilisateur r3579x, les données ont été anonymisées. Les noms et numéros de téléphone ont été supprimés de la base de données et certaines techniques de ‘dé-identification’ ont été appliquées. Bart De Wever a par exemple récemment déclaré, au sujet de l’utilisation des données de localisation des téléphones mobiles par la ville d’Anvers, que « nous ne faisons que suivre le signal. Nous ne savons pas à qui appartient l’appareil. Les données sont anonymes.»

La recherche universitaire montre cependant que ce n'est pas aussi simple. Les bases de données modernes utilisées par l’IA contiennent des centaines voire des milliers d'informations sur une personne. Les données de téléphonie mobile contiennent par exemple tous les endroits où vous vous êtes rendus depuis des années, et les données de navigation Web toutes les pages Web que vous avez visitées.

En réalité, des chercheurs ont montré que nous sommes tous uniques à notre façon et que ces ensembles de données contiennent tellement d'informations sur chaque individu qu'il est facile de déterminer que r3579x est en réalité Mr Dupont. Une étude conjointe de l’UCL et du MIT a montré que connaître la position d’un individu à quatre moments différents en l'espace de 15 mois suffit, en moyenne, à le ré-identifier dans une base de données de téléphonie mobile de plus de 1,5 million d'individus, rendant ainsi tout son historique de localisation disponible. De même, des chercheurs ont montré qu'il était facile de ré-identifier des individus avec quelques points de données dans base de données de carte de crédit, d'historique de navigation ou de Netflix.

Dans le monde actuel, l'idée pourtant pratique et intuitive de ‘l'anonymisation des données’ ne protège plus la vie privée. Comme le disait le Council of Advisors on Science and Technology (PCAST) d'Obama, il ne s'agit ‘pas [ou plus] une base utile pour l'élaboration des politiques regulatoires de protection de la vie privée’.

Au moment de l'entrée en vigueur du nouveau Règlement général européen sur la protection des données (RGPD) en mai et la refonte de notre Commission de la protection de la vie privée, devons nous soit renoncer aux énormes avantages de l'Intellligence Artificielle pour la société, soit renoncer à la vie privée ?

Heureusement, non. De nombreuses techniques d'ingénierie en protection de la vie privée ont été mises au point au cours de la dernière décennie pour nous aider à utiliser les données de manière sécurisée. Par exemple, la differential privacy vous donne des garanties de confidentialité démontrables des requêtes à une base de donnée tandis que le Secure Multi-Party Computation vous permet de combiner, en toute sécurité, des ensembles de données. Aucune de ses techniques n’est une solution miracle mais, correctement misent ensemble, elles nous permettent de construire des systèmes d’information respecteux de la vie privée comme par exemple i2b2 en Suisse pour les données génétiques ou OPAL pour les données de téléphonie mobile.

Les entreprises et le gouvernement collectent de grande quantité de données qui peuvent avoir un impact considérable sur l’IA et les startups belges dans le domaine. Ses données doivent être utilisées, beaucoup plus et plus vite, mais correctement. Il n’est pas nécessaire de sacrifier notre vie privée et mode de vie sur l’autel de l’innovation. Il est cependant plus que temps de repenser notre approche en matière de protection des données : refuser les « blanket statements » qui affirment que les données ont été anonymisées et déployer des solutions solides de protection de la vie privée.