Les services proposés par l’IR Data Terra
Les principaux services
L’infrastructure de recherche Data Terra propose des services autour des données d’observation du système Terre. L’objectif est de fournir des services interopérables et interdisciplinaires à tous les niveaux.
1) Services FAIR de découverte, d’accès et de gestion des données
Data Terra a vocation à harmoniser les services de données entre les différents domaines du système Terre et d’en généraliser le champ d’application. Les services seront structurés autour des éléments suivants : un catalogue commun décrivant les collections, les données et les services associés, des vocabulaires et ontologies pour garantir la réutilisation des données, une fédération d’entrepôts de données, une assignation d’identificateurs permanents des jeux de données permettant de les citer sans ambiguïté, et un service de statistiques pour évaluer l’utilisation des données. La systématisation des machines actionnables DMP facilitera et améliorera la gestion des données en permettant notamment d’anticiper suffisamment à l’avance les demandes de ressources et de réaliser les arbitrages nécessaires.
2) Services de production régulière et d’exploitation de données
Ces services opérés par les pôles de données ont pour principaux objectifs de transformer régulièrement les observations et mesures en données/produits dérivés adaptés à différentes applications scientifiques (allant jusqu’à la production d’indicateurs environnementaux). Ils sont co-établis en interface et en support aux infrastructures d’observation dans le cadre de Plans de Gestion de Données. Les services proposés permettent de constituer des jeux et séries de données/produits dérivés structurés et harmonisés en termes de description (métadonnées), de format, de qualité, pouvant aussi être considérés comme des références pour tous les utilisateurs.
3) Services d’analyse et de traitement à la demande
Pour répondre au besoin d’analyse et de traitement à distance des données diverses en très grands volumes et pour disposer des ressources de calcul nécessaires, des plateformes d’accueil appelées Earth System Analytics Labs (ESAL) et Environnements Virtuels de Recherche (VRE), seront développées proches des lieux de stockage. Elles permettront de mettre en œuvre des outils de traitements prédéfinis, de les paramétrer en fonction des besoins (emprises géographiques et temporelles d’intérêt par exemple), de les enchaîner, d’en analyser les résultats voire de les sauvegarder. Ces ESAL et VRE présenteront une interface utilisateur de type «web» facilitant une mise en œuvre guidée des algorithmes tels que : analyses géostatistiques, modèles, analyses et traitement d’images, méthodes d’auto-apprentissage (classification, machine learning), représentation des données (prévisualisation) cartographiques, chaînes de traitement de génétique environnementale. Les ESAL proposent une interface programmatique ciblant des utilisateurs capables de programmer tandis que les VRE proposent une interface graphique permettant de définir des workflows sans nécessairement coder.
4) Centres de données type HPC-Tier2
L’infrastructure informatique de l’IR Data Terra repose sur 8 centres de données et calcul de type HPC-Tier2 alliant ressources de calcul et stockage dédié à l’hébergement et l’exploitation des masses de données. Ces centres de données et services (CDS) sont des data center rattachés aux pôles. Ils peuvent être pilotés par des partenaires institutionnels de Data Terra (CNES, IFREMER, BRGM..), des mésocentres thématiques (ESPRI/IPSL,S-CAPAD/IPGP, ICARE/Univ. Lille, IGN…), des mésocentres mutualisés régionaux (GRICAD, Unistra) hébergeant les activités des CDS, ou des centres nationaux (CINES, IDRIS, …).
Les services transversaux
Les services transversaux s’appuient sur les services de données génériques disponibles à l’échelle française (tels que l’archivage long terme) les renforçant et les adaptant si nécessaire. En voici les principales caractéristiques :
- Accès aux données via des web services standards (INSPIRE, OGC, CEOS, …)
- Description des données (modèles de métadonnées, vocabulaires partagés, ontologies alignées…)
- Vision unifiée des ressources de stockage distribuées via une grille iRODS
- Capacité d’échanger les traitements entre plusieurs CDS : interopérabilité des traitements obtenue grâce à l’abstraction de la couche d’accès aux données et à des technologies telles que les conteneurs, openStack ou Kubernetes (études en cours au niveau de Data Terra et inter-agences spatiales dans le cadre du CEOS/WGISS)
Un projet dédié : GAIA Data
Le projet GAIA Data permettra les développements et la mise en œuvre opérationelle de ces services.
Data Terra s’appuiera sur ce projet lauréat de l’appel à manifestations d’intérêt Équipements structurants pour la recherche/EquipEx+ du PIA3 (Programme d’Investissements d’Avenir). Classé A+ et regroupant 21 partenaires, il bénéficiera d’un budget financé par l’ANR pour développer une infrastructure/plateforme de données et services distribuée répartie et supportée par ses propres Centres de Données et Services.