ADN et Big Data…
Alors que le phénomène Big Data s’amplifie, nous allons avoir besoin de méthodes plus élaborées que celles utilisées aujourd’hui pour stocker les données. Une des idées qui émerge est l’utilisation de l’ADN comme méthode de stockage des données, théorie qui commence à devenir réelle. Des scientifiques de l’université d’Harvard affirment que cette possibilité est réaliste, qu’il deviendra bientôt possible de stocker la totalité des données de la toile dans 75 grammes de matériau d’ADN.
George Church et Sri Kosuri de l’Institut Wyss à Harvard ont mené l’équipe de chercheurs qui a récemment découvert une manière de stocker pas moins de 5,5 petaoctets (égal à 700 teraoctets) dans un gramme d’ADN. Ils considèrent l’ADN comme n’importe quel autre périphérique de stockage. Plutôt que de stocker des données sur des disques magnétiques, ils s’appuient sur des brins d’ADN. L’ADN, capable de stocker 96 bits, est synthétisé avec chacune des séquences d’ADN TGAC, produisant des valeurs binaires : TG représentés par 0 et A et C par 1. Analyser les données stockées dans l’ADN implique d’utiliser des appareils de séquençage existants et de convertir chaque base en code binaire.
Les scientifiques misent sur l’ADN comme potentiel support de stockage depuis longtemps. Et ce pour trois raisons : elle est très dense, on peut y stocker un bit par base, qui n’est pas plus grande qu’un atome. Elle est volumétrique (stockée dans un béquet) et non plane comme un disque dur. Elle est stable : alors que d’autres supports de stockage doivent être conservés sous vide à moins de zéro degrés, l’ADN peut survivre des centaines de millier d’années dans un carton dans votre garage.
Il reste un obstacle à surmonter, l’aspect technologique : il n’est actuellement pas facile ni économique de stocker ou lire des données de cette manière. Cependant, la technologie avance rapidement. Avec les laboratoires sur puces et la technologie micro fluidique il est possible d’analyser le génome humain en seulement quelques heures. Avec les avancées de la science, l’équipe d’Harvard est persuadée qu’elle sera bientôt capable de stocker 100 million d’heures de vidéos haute définition dans un seul volume d’ADN, une nécessité de plus en plus forte avec l’énorme quantité de données générée par l’internet des choses.
Big Data et ADN …
Le Big Data peut aussi aider à la compréhension de l’ADN. Avec la capacité de gérer d’immenses ensembles de données, il est possible de mieux appréhender notre propre patrimoine génétique. Le séquençage ADN est désormais un domaine important de la recherche médicale, mais jusqu’à encore récemment, les scientifiques manquaient des ressources informatiques pour progresser. Aujourd’hui, plusieurs Start up proposent des services Cloud spécialisés dans la recherche génomique.
Par exemple, le programme de recherche de l’Université de Baylor « Recherche sur le cœur et le vieillissement en épidémiologie génomique », vise à identifier les gènes liés aux risques accrus de maladies cardiaques. Ce projet implique le séquençage de génomes complets sur une douzaine d’individus et autres groupes de population, ce qui génère une masse de données telle que les chercheurs ne savent pas comment les utiliser. Pour ce faire, l’équipe s’est rapprochée de la startup DNA Nexus, afin de se faire aider pour le séquençage de l’ADN de plus de 14 000 personnes, comprenant 3 751 génomes complets et 10 771 exomes. Cette opération prend environ 2,4 millions d’heures de calcul. En utilisant le Cloud pour analyser ces données, l’équipe de recherche a pu effectuer ce travail 12 fois plus vite que s’ils avaient utilisé leurs propres ordinateurs. Ils ont produit 430 Térabits de données, utilisés pour la recherche des causes génétiques de certaines maladies cardiaques.
Beaucoup de recherches nécessitant d’étudier un grand nombre d’individus étaient jusqu’à aujourd’hui limitées par le manque de puissance informatique, ce n’est plus le cas aujourd’hui.