ICTjournal 03/2021

  • Selon
  • Outils
  • Applications
  • Technologies
  • Solutions
  • Ainsi
  • Containers
  • Netzmedien
  • Entreprises
  • Suisse

Image: Kevin Ku from

Image: Kevin Ku from Pexels Quand statistiques publiques riment avec data science Pour proposer de la Data-Science-as-a-Service, l’Office fédéral de la statistique (OFS) noue un partenariat avec le Swiss Data Science Center. Tandis que des chercheurs de l’EPFL ont puisé dans les données de La Mobilière pour compléter les statistiques publiques. Yannick Chavanne L’Office fédéral de la statistique (OFS) se donne les moyens d’accomplir sa nouvelle mission. A savoir, favoriser l’utilisation de la science des données et de l’intelligence artificielle au sein de l’administration fédérale. Pour rappel, l’OFS a dans cette optique mis en place un Centre national de compétences en science des données (DSCC), avec l’objectif de proposer des prestations de Data-Science-asa-Service. Pour concrétiser ce projet, l’office annonce avoir noué un partenariat avec le Swiss Data Science Center (SDSC), structure commune aux deux EPF lancée en 2017. «Cela me rappelle le partenariat entre l’Alan Turing Institute, basé à Londres, et le British Office for National Statistics, engagés dans une vision commune de la recherche et de l’innovation en matière de science des données», commente Martin Vetterli, président de l’EPFL. Soutien au recrutement et utilisation de la plateforme du SDSC La collaboration entre l’OFS et le SDSC s’articule autour de trois volets. Il s’agit d’abord d’une aide dans le recrutement des spécialistes qui composeront le DSCC. Les EPF vont en outre accueillir ces collaborateurs «en résidence» au sein des laboratoires du SDSC, «dans une perspective de développement de leurs compétences et de mise en réseau des acteurs de ce domaine en Suisse», précise le communiqué de l’OFS. Le second volet du partenariat concerne l’utilisation par le DSCC de la plateforme technologique open source RENKU, développée par le SDSC. «Le troisième volet vise à promouvoir la compréhension, le partage de savoir, des connaissances et pratiques en science des données et intelligence artificielle au sein de l’administration fédérale», ajoute l’OFS. «Cela me rappelle le partenariat entre l’Alan Turing Institute, basé à Londres, et le British Office for National Statistics, engagés dans une vision commune.» Martin Vetterli, président de l’EPFL L’Office fédéral de la statistique s’intéresse aussi à la science des données et au big data pour créer des scénarios prédictifs utiles à la société, peut-on lire dans la Stratégie d’innovation sur les données publiée en 2017 par l’Office. C’est dans l’éventuelle perspective de compléter les statistiques publiques, que des chercheurs de l’EPFL ont mis au point une méthode de big data. 03 / 2021 www.ictjournal.ch © netzmedien ag

statistiques & data science 27 Le big data des assurances pour compléter les statistiques publiques Le big data jette en effet des perspectives intéressantes pour fournir des indicateurs socio-économiques aux statisticiens et aux autorités. Pour explorer concrètement ces possibilités, des chercheurs du Laboratoire des relations humaines-environnementales dans les systèmes urbains (HERUS) de l’EPFL ont puisé dans les données anonymisées de clients de l’assureur La Mobilière. «L’idée était de voir s’il est possible d’utiliser ces informations pour prédire certains facteurs socio-économiques des villes, qui pourraient décrire la qualité de l’espace et de l’environnement urbains. L’avantage est que ces données sont peu coûteuses si l’entreprise est disposée à nous les fournir, car elles existent déjà, et il est possible d’effectuer les enquêtes chaque année sans frais supplémentaires», explique Emanuele Massaro, l’un des auteurs de l’étude publiée dans PLOS ONE. 600 000 profils anonymes Les chercheurs ont exploité des techniques de data mining sur 1341 328 clients anonymisés et extrait les données démographiques (âge, sexe, code postal, profession, état civil,...), ainsi que celles liées au logement et aux voitures des assurés. Ces données ont été agrégées à l’échelle des 170 municipalités suisses les plus peuplées, fournissant finalement près de 600000 profils identifiés par un code unique. Cet ensemble de données a permis de créer plus de 30 variables, à partir desquelles celles correspondant le mieux à chaque indicateur socio- économique ont été sélectionnées. De quoi élaborer un modèle de régression spatiale permettant de prédire précisément douze variables correspondant à six catégories: population, transport, travail, espace et territoire, logement, et économie. «Bien sûr, nos prédictions ne peuvent pas remplacer les recensements, mais donnent des indicateurs annuels. Nous voulons aussi montrer que ces bases de données contiennent beaucoup d’informations pertinentes sur le plan social, au-delà du marketing et des études de marché, « Bien sûr, nos prédictions ne peuvent pas remplacer les recensements, mais donnent des indicateurs annuels.» Emanuele Massaro, chercheur à l’EPFL et donc que les entreprises devraient davantage collaborer avec les chercheurs», précise Emanuele Massaro. Données incomplètes et difficiles d’accès Le modèle statistique développé a toutefois des limitations. Notamment car les données des assurances sont incomplètes sur le plan démographique, les moins de 18 ans n’étant pas pris en compte. L’étude soulève en outre les questions relatives à la protection des données, ainsi que la difficulté pour les scientifiques à pouvoir facilement disposer de ce type de données: «Les données propriétaires sont généralement exploitées pour des avantages commerciaux et le profit au sein de l’organisation, et ne sont pas accessibles à l’ensemble de la communauté scientifique». Publicité Concrètement, comment l’IA peut-elle m’aider ? Testez vos besoins en 2 minutes ask.swiss-sdi.ch/ia