Pour des solutions permettant de traiter de grands volumes de données, SWITCH coopère avec des réseaux de recherche.
Les scientifiques doivent souvent travailler avec de grandes quantités de données, par exemple lorsqu'ils analysent de vastes jeux de données dans le domaine public. C'est pour eux que SWITCH a développé SWITCHengines. Quand un chercheur développe un nouvel algorithme de recherche pour le web, il peut vérifier son travail d'après le jeu de données contenant des données recueillies au cours de nombreuses années sur le Word Wide Web (Common Crawl dataset). Un biologiste travaillant sur des génomes humains peut comparer son jeu de données local aux données publiques du projet de 1000 génomes.
Il est actuellement plus facile de traiter de grands volumes de données que ce n'était le cas autrefois car on peut faire son choix parmi de nombreux outils open-source, et la capacité de calcul est disponible sur demande chez de grands fournisseurs commerciaux de services cloud, comme Amazon. Quelques fournisseurs de services cloud publics proposent des jeux de données scientifiques gratuits à condition de payer le temps de CPU nécessaire au traitement des données.
Pour leur travail, les scientifiques ont besoin de deux choses: un cluster d'ordinateurs disposant d'une haute capacité pour le traitement des données, plus l'espace de stockage requis pour retenir les jeux de données et les résultats de calcul.
Le projet SCALE-UP contient un module de travail appelé Scientific Data Pools, dont le but est de proposer suffisamment d'espace mémoire pour de grands volumes de données à la disposition d'autres chercheurs.
C'est dans ce dernier cas qu'intervient SWITCH avec le projet SCALE-UP du programme P-2 de swissuniversities. Ce projet contient un module de travail appelé Scientific Data Pools, dont le but est de proposer suffisamment d'espace stockage pour de grands volumes de données à la disposition d'autres chercheurs – ceci selon leurs besoins spécifiques et leurs budgets. Le but consiste à intégrer ceci au service SWITCHengines.
Cependant, le stockage de données à l'échelle des pétaoctets est un peu plus compliqué qu'il ne semble à première vue. Les données doivent être disponibles fiablement et protégées des pertes. En vue de venir à bout d'une telle quantité de données, SWITCH a recours à une architecture de stockage d'objets. La manière courante de protéger les données consiste à garder trois copies de chaque objet. Cela a pour conséquence que la capacité brute requise en vue de stocker les données avec une redondance standard est le triple des données proprement dites. Un jeu de données typique est d'environ 200 téraoctets, alors SWITCH a cherché de proposer le service à un prix raisonnable.
Pourquoi ne pas coopérer en Europe? Chaque institut pourrait stocker les données avec une redondance réduite.
L'avantage est que tous les réseaux nationaux de recherche et de formation (NREN) et instituts de recherche ont des problèmes très semblables dans l'hébergement des jeux de données scientifiques. Pourquoi ne pas coopérer en Europe? Chaque institut pourrait stocker les données avec une redondance réduite, et profiter de la possibilité de télécharger en cas d'urgence une copie perdue. Si tous les instituts rendent les données accessibles par API standard de stockage d'objets, il sera très facile de coopérer et de réduire les coûts de la redondance. SWITCH a entamé, en vue d'un tel projet, une collaboration avec GARR (le NREN italien), l'Université de Zurich (UZH) et l'Ecole polytechnique fédérale de Lausanne (EPFL).
SWITCH a choisi comme jeu de données pour ses tests Ngrams de Google Books. Avec 5 TB, la capacité est assez grande pour une preuve du concept et assez petite pour nous permettre de tester rapidement nos procédures de copie. L'EPFL a fourni la première copie de Ngrams Google Books pour téléchargement. SWITCH a téléchargé le jeu de données par SWITCHlan et l'a servi par le réseau GÉANT. En vue d'émuler un environnement de production réel, nous avons décrit notre cas d'utilisation comme suit:
Chaque NREN
SWITCH se propose d'améliorer SWITCHengines par l'hébergement de données scientifiques au niveau pétaoctet d'ici la fin de 2017.
Il est facile de synchroniser les jeux de données entre les sites car ils ne changent que par incrémentation des données, sans que les données existantes ne soient jamais modifiées. Au moyen d'API de stockage de données standard tels que swift et S3, SWITCH a servi les données avec succès, tandis que GARR et UZH ont pu synchroniser une copie complète du jeu de données. L'expérience faite avec un jeu de données de moindre taille a été utile en vue d'identifier les bogues logiciels des outils open-source. SWITCH, GARR, EPFL et UZH ont coopéré pour les supprimer et ainsi contribué à des projets open-source durant la phase pilote. Sans la collaboration entre les ingénieurs, il aurait été beaucoup plus difficile de supprimer tous ces bogues en si peu de temps.
SWITCH se propose d'améliorer SWITCHengines par l'hébergement de données scientifiques au niveau pétaoctet d'ici la fin de 2017. Les jeux de données seront accessibles tant pour le calcul dans SWITCHengines que pour l'accès via SWITCHlan en cas de calculs avec des clusters d'ordinateurs en Suisse.
Au vu de cette expérience positive, nous pensons que la coopération avec d'autres instituts est un grand avantage. SWITCH est prête à coopérer avec d'autres NREN et instituts du monde entier. La collaboration internationale entre les NREN, la mise en œuvre commune des services, aident à réduire les coûts et offrent un meilleur service aux clients. Le savoir-faire en matière d'outils de logiciel est accumulé beaucoup plus rapidement quand on travaille au sein d'une équipe internationale. Et surtout, en partageant les progrès à chaque étape, on oblige les ingénieurs à fournir une documentation de haute qualité, ce qui permet à quiconque d'apporter son aide. La coopération signifie également que l'on apprend les uns des autres. En s'entretenant des difficultés techniques avec d'autres ingénieurs présentant différents points de vue, on a souvent abouti à une solution rapide des problèmes qui nous retenaient.