Todas as células do nosso corpo carregam moléculas de DNA (Ácido desoxirribonucleico) e, atualmente, a ciência já é capaz de criar um DNA sintético. Em março de 2019, a Microsoft e a Universidade de Washington divulgaram o primeiro sistema completamente automatizado para armazenar e recuperar dados em DNA sintético. A palavra “Hello” – Oi – foi codificada em trechos de DNA e recuperada em dados digitais. Em junho do mesmo ano, uma startup de biologia sintética – CATALOG – afirmou ter armazenado, em DNA sintético, todo o conteúdo textual da versão em inglês da Wikipédia (cerca de 16 GB). Por que será que startups e as Big Techs estão investindo nessa tecnologia e como isso pode mudar o futuro da indústria de dados? Se liga no texto que a gente conta para vocês.
Revolução digital
Mais ou menos no meio do século passado começou o que chamamos hoje de terceira revolução industrial – ou Revolução Digital, chame como preferir. Com a digitalização, os dados provenientes de sinais analógicos passaram a ser convertidos em bits – a menor unidade de medida da transmissão de dados por computadores e aparelhos eletrônicos, o sistema binário 0 e 1. Um dos primeiros dispositivos de armazenamento de dados digitais foram os disquetes, onde era possível armazenar arquivos com tamanho entre 80 Kb e 1,44 Mb, o que é aproximadamente o tamanho desse texto que você está lendo.
Após os disquetes, diversos outros dispositivos foram inventados, para que fosse possível armazenar cada vez mais dados. Com isso tivemos o desenvolvimento de CDs, DVDs, pendrives, cartões de memória, HDs (Hard Disks – ou discos rígidos) e mais atualmente os SSDs (Solid State Drive – unidades de disco sólido). Como uma breve comparação, os CD-ROM, que substituíram o uso de disquetes, possuíam uma capacidade de armazenamento de 700 Mb (equivalente a 486 disquetes). Hoje temos smartphones com capacidade de até 1 Tb (em torno de 730 mil disquetes) e a tendência é que o armazenamento de dados se torne cada vez mais eficiente. Então, de acordo com o título desse texto: qual é o nosso problema? Encurtando a resposta: geramos dados demais!
Como você já deve ter percebido, a cada ano geramos mais e mais dados. Hoje temos a internet, um fator que não existia quando os disquetes foram desenvolvidos. Os dados de todos os sites que você acessa, músicas, filmes e séries que assiste por streaming ficam armazenados fora do seu smartphone. Empresas como Google, Facebook, Amazon, Microsoft, entre outras, possuem enormes data centers distribuídos pelo planeta. Mesmo utilizando os melhores dispositivos de armazenamento, os equipamentos duram apenas algumas décadas até que apresentem defeitos e precisem ser substituídos.
Além disso, cerca de 1% de toda a energia elétrica produzida no mundo é utilizada para manter os centros de dados funcionando. Isso é mais energia elétrica do que alguns países inteiros consomem! Há uma previsão de que esse consumo aumente para 30% da energia global se nenhuma alternativa for gerada nas próximas décadas. Pensando em como impedir que os centros de dados devorem a eletricidade do mundo, diferentes empresas têm apostado em uma alternativa muito antiga – o DNA.
O que hoje está distribuído em milhares de data centers poderá ser armazenado em apenas uma sala. Com o desenvolvimento da tecnologia de armazenamento em DNA, o custo energético e o espaço necessário para armazenar dados pode ser reduzido drasticamente. O principal entrave é que ainda é muito caro sintetizar longas fitas DNA, mas já sabemos que, até o momento, somente o DNA possibilita compactar informação nessa escala.
Como o DNA pode ser utilizado para armazenar dados digitais
As moléculas de DNA possuem uma quantidade gigantesca de informação armazenada. A cor dos seus olhos, da sua pele, o código para todas as proteínas no seu corpo, desde a queratina das unhas e cabelos até a hemoglobina que distribui o oxigênio pelo nosso organismo. Mesmo com toda essa informação, sequer somos capazes de ver o DNA a olho nu. Outra característica interessante é a estabilidade da molécula. Como citado no texto: os equipamentos eletrônicos duram algumas décadas, entretanto, o DNA mais antigo recuperado até o momento possui, no mínimo, 700 mil anos!
Essas características chamam a atenção de cientistas, investidores e (acredito que) a sua também. O DNA permite armazenar informações com uma densidade digna de ficção científica. Hoje há quase 600 centros de dados em hiperescala espalhados pelo planeta e apenas 1 kg de DNA seria suficiente para armazenar toda essa informação.
Parafraseando Randall A. Hughes e Andrew D. Ellington em “Synthetic DNA Synthesis and Assembly: Putting the Synthetic in Synthetic Biology”: O século XX foi considerado o “século do átomo” devido às grandes descobertas sobre as propriedades físicas e químicas dos elementos. No início do século XXI estamos testemunhando o que pode se tornar o “século do DNA”.
Os desafios do armazenamento em DNA
Apesar do grande potencial, ainda há três principais desafios a serem transpassados para que a tecnologia de armazenamento de dados digitais em DNA se torne competitiva: custo, velocidade e a taxa de erro.
Atualmente, a síntese química de DNA é um processo bastante aplicado para uso laboratoriais, contudo, o custo da síntese de uma fita de DNA capaz de armazenar grandes quantidades de dados digitais seria exorbitante. Atualmente, o custo atual de 1 kb em DNA custa entre 100 e 300 dólares. Essa síntese também gera subprodutos que limitam a reação, isto é, limitam sua velocidade, uma vez que após uma certa quantidade de nucleotídeos adicionados fica mais difícil de continuar a síntese da molécula. Novos métodos de síntese estão sendo desenvolvidos, tanto na intenção de baratear o custo de produção quanto para sintetizar fitas de DNA maiores, de forma mais rápida e com melhor qualidade.
Aliás, quando pensamos em guardar dados em DNA sintético também devemos pensar em recuperar esses dados. Dessa forma, a recuperação ocorre através do sequenciamento de DNA. Enquanto nos últimos 10 anos o custo para sintetizar DNA não variou de forma significativa, o custo de sequenciamento reduziu drasticamente. De acordo com o National Institute of Genome Research (Instituto Nacional de Pesquisa do Genoma), o sequenciamento do genoma humano custava entre 500 milhões e 1 bilhão de dólares, mas hoje custa algo em torno de mil dólares.
Mesmo com a redução de custo, o sequenciamento de DNA ainda possui alguns entraves que dificultam o avanço para o armazenamento e recuperação de dados digitais no DNA. A taxa de erro na leitura geralmente acontece em 1 a cada 100 bases nucleotídicas, uma taxa muito alta e não aceitável em termos de manutenção de dados.
Apesar de ser uma tecnologia em desenvolvimento, os mais diferentes dados já foram armazenados e recuperados em DNA, desde sonetos de Shakespeare, fotos de gatinhos, até a música tema de Super Mario Bros. Provavelmente o armazenamento de dados em DNA não vai substituir completamente os Hard Disks – Discos Rígidos, ou HDs –, e talvez sejam utilizados em conjunto em grandes centros de dados. O que temos certeza é que toda essa discussão, apesar de parecer, não se trata mais de ficção científica e seu uso em larga escala está mais próximo do que imaginamos…
Cite este artigo:
SILVA, M.C. Armazenamento de dados em DNA: o começo do fim dos hard disks?. Blog do Profissão Biotec, v.8, junho/2021. Disponível em: <https://profissaobiotec.com.br/armazenamento-de-dados-em-dna-o-comeco-do-fim-dos-hard-disks/ > . Acesso em: dd/mm/aaaa