Alors voilà, le logiciel libre çà t'est venu comme comme çà : à force de te crever la paillasse à développer des trucs aux petits oignons, pour l'usage exclusif d'un client qui n'en a pas grand chose à battre, quand c'est pas carrément la poubelle. Des trucs qui gouvernent ta vie, qui plus est... Certes, avec la consolation d'un salaire que pas mal de contemporains t'envient : bienvenue dans le monde doré du bullshit job de luxe ! Ca pourrait être pire, t'aurais pu faire avocat d'affaires.

Donc t'as pris un bout de code, bien joli et dont t'étais fier, et tu l'as collé en douce sur un serveur public. Sous format tar ou zip ou je ne sais quoi, doc en mauvais anglais, et com discrète : quelques mails, forums spécialisés, embryons de moteurs de recherche du temps d'avant github, svn, stackoverflow, twitter, facebook, google et qwant. Pas plus mal, des fois que ton cher employeur découvre trop vite le pot aux roses !

Et chaque jour t'as maté les logs, les downloads qui montent, venus d'outre-atlantique ou d'ailleurs, d'inconnus profonds mais aussi d'Oracle, Microsoft, Borland ou Apple, du MIT, du CNRS, et là t'en croyais pas tes yeux, un gosse à Noël, t'as même reçu des mails en angliche de cuisine avec l'air véridique.

Comme çà on a tous appris sur le tas : au fil des bugs, des patchs géniaux ou pourris envoyés par un Chinois ou un Grec, des remarques bienveillantes, acerbes ou moqueuses, des régressions que t'as introduites comme un gland parce que t'avais pas de tests, pas de gestion de conf, pas d'historique, rien du tout. Et je parle même pas de la licence : avec un peu de chance, t'as fini par t'y intéresser avant le tribunal.

Eh ben, l'open-data, c'est pareil.

Un jour t'en as marre des couleuvres qu'on te fait avaler. Alors tu vas chercher des sources indépendantes, ou jugées fiables, venant d'institutions publiques, de journalistes, d'activistes ou de qui tu voudras.

Et tu commences à les parser, agréger, nettoyer, harmoniser... avant de les coller sur un dépôt github ou ailleurs, d'en causer à quelques statisticiens qui se foutent gentiment de ta gueule, parce que çà se voit comme le nez au milieu de la figure que t'es un amateur.

Pas grave, comme ils sont cool, ils t'expliquent les bases : harmoniser les champs qui servent de clé, garantir une clé unique (par exemple, mettre un code ISO-3166 pour les pays, tu vois ? ou des dates sur chaque ligne, pas juste au fichier...). Ou encore fournir un agrégat complet avec une URL fixe, et pas une ribambelle de fichiers, si tu veux qu'ils intègrent çà automatiquement à leurs calculs, parce que quand même ils en ont bien envie.

Entre autres bons principes que t'étais pas censé ignorer, sauf si t'es un guignol comme moi !

Alors si j'ai un seul message à faire passer, c'est vas-y, fonce. Tu fais de ton mieux, parce que l'enjeu maintenant c'est les data, elles décideront bientôt de tes droits, de ta santé, de tes finances, de ton sort en général, bref de ta vie. Ce sont elles derrière les algorithmes de l'IA et du big data et du décisionnel qui décide à notre place, elles qui en font la valeur et le sens, avant le code.

Il y a peu, la bataille pour la liberté, c'était l'open-source. Disons que s'il n'a pas gagné, c'est bien parti. Mais la lutte n'est pas terminée : abandonner les données au privé ou aux seuls spécialistes, c'est rendre à l'ennemi le terrain durement conquis.

Et c'est pas parce que t'es pas un statisticien que çà t'excuse : t'as un cerveau, bordel !


P.S. Ma première tentative d'open-data : mettre les données Covid19 de l'OMS sous un format exploitable (ce qu'ils auraient dû faire sans moi tout seuls comme des grands), ici : https://github.com/gibello/whocovid...