Collecte des données : la fin du big data – big brother est – elle proche ?

Les courtiers de données et GAFA collectent, avec notre autorisation, nos données – ce nouveau « pétrole du 21eme siècle » –  pour faire fonctionner les algorithmes des intelligences artificielles qui nous proposent des services de plus en plus personnalisés. Mais ce monopole pourrait peut-être vaciller …
Les pros de la collecte de données : les « data brokers »

Peu connu du grand public, il existe un marché de la donnée où opèrent des entreprises spécialisées dans la revente de données : les courtiers en données, ou data brokers. On a parlé récemment de l’une d’entre elle, Cambridge Analytica, à l’occasion du scandale dans lequel Facebook était impliqué. Mais il y a aussi Mediapost (filiale de La Poste), Epsilon, et Adrexo en France ; Axciom, Equifax, et Datalogics aux Etats Unis ; Experian en Irlande. Elles collectent des informations qui permettent de nous identifier (nom, adresse, numéro de téléphone, email, âge, sexe, taille du foyer, etc), les croisent avec des données publiques de recensement, ou encore d’immatriculation automobile. Mais aussi avec les informations que leur fournissent leurs clients (grande distribution, opérateurs télécoms, etc.) sur nos transactions et comportements d’achat. Puis ces brokers se revendent leurs fichiers entre eux, afin de vérifier et de consolider leurs informations. Dans un autre genre de data broker, il y a aussi bien sûr les GAFA, qui, contre la gratuité des services qu’ils nous proposent, collectent nos données.

Nous demande-t-on notre consentement pour collecter nos données ?

En théorie oui. Car la collecte et circulation de données et très réglementée en France, notamment via la nouvelle réglementation européenne sur la confidentialité des données (RGPD). Chaque entreprise demande donc l’autorisation du consommateur avant de collecter ses informations. Elles le font par exemple lorsque sur leurs sites web, nous acceptons l’utilisation de cookies avant de (et souvent afin de) pouvoir poursuivre notre navigation, ou lorsque nous acceptons les conditions d’utilisation des plateformes de services que nous utilisons, parfois quotidiennement (Google, Facebook, Instagram, etc.). Ces dernières ont alors notre autorisation pour suivre, via toutes les interactions que nous y opérons, nos actions, échanges et centres d’intérêts. Et pour nos fournisseurs de boite mail, nous leur permettons d’analyser nos emails, et d’en extraire les mots clés pour identifier nos besoins potentiels. Par contre, en ce qui concerne les data brokers traditionnels évoqués plus haut, leur conformité règlementaire reste opaque, car ils ne communiquent pas sur leur techniques de collecte de données.

A quoi ça sert ?

Nos données servent principalement à nourrir les algorithmes des intelligences artificielles. Plus elles en ont, plus elles peuvent se développer, grâce au machine learning. Elles permettent alors de personnaliser les publicités auxquelles on nous expose, de faire fonctionner les voitures autonomes grâce à la reconnaissance d’image, de remplir nos frigos grâce à la reconnaissance vocale, ou encore d’analyser des séquences d’ADN pour réaliser des diagnostics médicaux. Pour Laurent Alexandre, Chirurgien urologue, président de DNAVision, nous produisons tellement de données, que seule l’IA peut analyser de tels volumes, ce qui la rend indispensable et fait de nous « les idiots utiles de l’intelligence artificielle ». Car par exemple, sans le savoir, nous éduquons gratuitement l’IA de Facebook en y postant nos commentaires et photos (« Les idiots utiles de l’intelligence artificielle », Le Monde Science et Techno, 21/11/2016).

Est-ce dangereux ?

Pour le Think Tank Génération libre c’est surtout injuste. Car nous sommes « exclus de la chaine de valeur de l’économie numérique et prisonnière du ciblage publicitaire […] c’est un pillage en règle de nos données, c’est-à-dire de nous-mêmes » (Mes data sont à moi. Pour une patrimonialité des données personnelles, janvier 2018). Il propose alors de donner aux individus un droit de propriété sur leurs données personnelles, ce qui leur permettrait de choisir, s’ils le souhaitent, de vendre leurs données aux plateformes et entreprises qui les collectent, ou de payer pour conserver leurs données privées. Mais pour l’instant la Cnil (Commission Nationale de l’Informatique et des Libertés) n’approuve pas cette idée. Car, d’une part, la donnée à l’échelle individuelle n’a que très peu de valeur, et d’autre part, un individu seul n’aurait que très peu de marge de manœuvre pour négocier face aux géants du Net.

Des alternatives au big data ont déjà émergé

Il ne sera peut-être un jour plus nécessaire de s’inquiéter du respect de nos vies privées. Car il existe de plus en plus d’alternatives technologiques efficaces pour entrainer des algorithmes avec peu de données ou sans avoir besoin de collecter les nôtres. Par exemple, la start up Snips créée par Rand Hindi, a développé une plateforme vocale pour doter les appareils d’assistants vocaux, à l’aide de la génération de données. C’est-à-dire en créant des fausses données pour éduquer des algorithmes de reconnaissance du langage naturel. Grâce à une technologie de simulation d’informations développée par la start up, il n’est alors plus nécessaire de collecter des données sur les utilisateurs. En quelques heures elle obtient autant de données que Facebook en aurait collecté en 6 mois. « Pendant des années les GAFA nous ont fait croire qu’ils étaient les seuls à pouvoir faire fonctionner l’intelligence artificielle, grâce à leurs données. Or avec cette nouvelle technologie, aujourd’hui, ils n’ont aucun avantage sur les entreprises qui n’en collectent pas ou pas autant qu’eux ».

C’est le constat aussi de Maryne Cotty Eslous, fondatrice de Lucine, une solution de thérapie numérique pour les patients atteints de douleurs chroniques. La force de l’application ne tient pas à ses algorithmes, mais aux jeux de données collectés, qui grâce à leur niveau de détail et leur spécificité, permet à l’intelligence artificielle qui la sous-tend d’apprendre et de s’entrainer. Ce niveau de détail ne nécessite donc pas de collecter des « big data », mais uniquement celles qui sont ciblées. « En plus de collecter beaucoup moins de données que les GAFA, nous obtenons des services de reconnaissance faciale et vocale bien plus performants que les leurs ».  (Podcast Voyage en terres d’intelligence artificielle, sur Regards Connectés, par Thomas Gouritin, 03/09/2018).