O Big Data é uma das áreas da computação que mais cresce na bioinformática, ajudando a automatizar processos, atividades e pesquisas!

O sonho

Em meados dos anos 50, a corrida pelo entendimento do funcionamento do DNA/RNA e Proteínas era intensa. Estudos em proteômica eram os mais avançados, pois acreditava-se que eram as proteínas que definiam as características genéticas do indivíduo. No entanto, ainda era complexo o estudo das sequências devido à primordialidade tecnológica disponível na época. 

Nesse contexto, a bioquímica Margaret Dayhoff vislumbrou o potencial da computação para auxiliar nos estudos das sequências de aminoácidos, a fim de entender mais sobre as proteínas. Além de ter participado do desenvolvimento do primeiro software, Dayhoff também desenvolveu o código de uma única letra para nomear os resíduos de aminoácidos (por exemplo: Arginina – Arg -> R), e dessa forma ela publicou o Atlas of Protein Sequence and Structure em 1965, o primeiro banco de dados biológicos. 

Mal sabia ela que com o avanço da computação e a chegada da internet, os dados tanto de proteínas e sequências de aminoácidos, bem como genomas estariam a um clique de distância dos pesquisadores, chegando assim à era do Big Data bem o que vivemos hoje. Aquele sonho virou uma surpreendente realidade.

Mas o que é Big Data?

Big Data por definição é uma área que estuda como tratar, analisar, plotar e obter informações a partir de um grande conjunto de dados. Muitas vezes, esses conjuntos de dados são grandes demais para que possamos utilizar métodos convencionais de análise.

Na bioinformática, o big data tem se destacado, o aumento das bases de dados ocorre diariamente. Sendo reportado pelo Instituto de Bioinformática Europeu (EBI), no qual um de seus repositórios teriam mais de 40 petabytes (em uma singela comparação 50 petabytes é tudo que a humanidade escreveu na história em todas as línguas) de dados genéticos, proteínas e pequenas partículas no ano de 2014… imaginem nos dias atuais !

As principais características de um big data são conhecidas como os 3Vs: Volume, Variedade e Velocidade

Volume: O aumento dos dados cresce exponencialmente nas diversas áreas da bioinformática. A exemplo das bases de dados Swiss-Prot, Proteomics DB, Protein Data Bank (PDB).

Variedade: Os tipos de dados que podem ser armazenados, provendo,  uma riqueza de informações para os pesquisadores. As ciências “ômicas”  contém dados organizados sistematicamente em quase todos os níveis de componentes celulares. 

Velocidade: De extrema importância, já que garante a produção e processamento dos dados. 

Ilustração de esquema dos 3V´s característicos do Big Data, Velocidade, Volume e Variedade
Figura 1: Ilustração de esquema dos 3V´s característicos do Big Data, Velocidade, Volume e Variedade. #ParaTodosVerem: Esquema ilustrativo abordando os 3V´s do Big Data, através de setas verticais em sentido horário, iniciando com Volume (representado por formato azul cilindrico ilustrando uma base de dados), Velocidade (representado por uma tela com um velocímetro nas cores azul, roxo, rosa e vermelho) e Variedade (representado por um medidor de pressão arterial, um celular e um erlenmeyer, todos na cor roxa). Fonte: A autora.

Big Data é utilizado para diversas análises, descoberta e predição de novos medicamentos, tomadas de decisão, e medicina de precisão. As análises dos dados que compõem o big data necessitam de um banco de dados onde essas bases estejam organizadas com os tipos de dados a serem trabalhados.

Ilustração de um gato branco caracterizado de cientista
#ParaTodosVerem: Ilustração de um gato branco caracterizado de cientista, utilizando óculos preto e gravata borboleta vermelha em um laboratório, olhando fixamente para o leitor. Com a seguinte pergunta ao leitor: “Big Data como é que funciona?” Fonte: autor

#ParaTodosVerem: Ilustração de um gato branco caracterizado de cientista, utilizando óculos preto e gravata borboleta vermelha em um laboratório, olhando fixamente para o leitor. Com a seguinte pergunta ao leitor: “Big Data como é que funciona?” Fonte: autor

Tipos de dados em Big Data 

O big data é uma área da computação focada em trabalhar com dados digitais e uma das áreas que tem crescido junto com ele é a bioinformática.  Existem geralmente cinco tipos de dados que são massivos em tamanho e mais usados ​​em pesquisa em bioinformática: 

(i) Dados de expressão gênica: A expressão de dados gênicos contempla níveis de expressão de milhares de genes que são avaliados em várias situações (por exemplo, genes que são alterados devido estágios de desenvolvimento de doenças). Permite identificar genes que são afetados por patógenos ou vírus, comparando os valores de expressão de células infectadas e não infectadas. Essas alterações são registradas usando perfis de expressão gênica baseados em microarrays. Os dados gerados podem ser utilizados como biomarcadores para identificação e prevenção de tais doenças. 

(ii) Dados de DNA, RNA e sequência de proteínas:  São utilizados vários métodos analíticos que permitem a compreensão de. suas características, funções, estruturas e forma como evoluíram O sequenciamento de DNA pode ser aplicado com propósito de estudo de genomas e proteínas, biologia evolutiva, identificação de microespécies e identificação forense

(iii) Dados de interação proteína-proteína (PPI): Oferecem informações essenciais em todos os processos biológicos, como por exemplo, as funções das proteínas.  Essas análises nos ajudam a entender a base molecular de doenças causadas por PPIs anômalas, como Alzheimer e câncer, ao identificar interações de genes e proteínas. Além disso, podemos estimar alvos de drogas direcionando assim as pesquisas para potenciais agentes terapêuticos. 

(iv) Via dados: As análises de vias fazem uma associação entre produtos e fenótipos de interesse, a fim de estimar função genética, identificar biomarcadores e traços, e também categorizar pacientes e amostras. Com o aumento do volume de dados genéticos, genômicos, metabolômicos e proteômicos, as tecnologias de big data são uma alternativa para realização dessas análises.

(v) Ontologia gênica:  É uma iniciativa que visa organizar todos os dados de um gene em uma base de dados, estruturada e independente da espécie para os três objetivos da associação biológica (processos, componentes celulares e funções moleculares). Utiliza os vocabulários controlados para facilitar os dados de consulta em diferentes níveis.

As possibilidades com o big data são infinitas, já que uma nova pesquisa ou até uma área da ciência pode emergir de um conjunto de dados. Dessa forma, a preocupação com a formação de profissionais e também com os recursos utilizados para que essa estratégia funcione são indispensáveis. 

Desafios do Big Data

Um dos grandes desafios em big data é o armazenamento. Principalmente porque os dados trabalhados nessas análises são dados muito heterogêneos; podem estar em diferentes bases de dados, gerando variações de confiabilidade.

Nesse sentido, o upload desses dados também é preocupante, pois a carga é grande e boa parte desses dados, muitas vezes, não são transferidos aos servidores. Isso ocorre devido ao custo, às limitações tecnológicas e até às questões éticas. Esses problemas não se caracterizam apenas pelos 3v´s, mas também pela distribuição geográfica de dados. Para enfrentar esses desafios o cloud computing (computação na nuvem) tem sido usado. Segundo Marx et al. A melhor política é usar a nuvem para armazenamento de dados e para computação.”

Além disso,  de existir uma alta demanda por profissionais que façam a análise desses dados, formação de futuros bioinformatas e cientistas de dados, atuantes do “dry-lab” (em tradução literal, laboratório seco). 

Esses profissionais conseguem desenvolver pesquisas de relevância tecnológica e saúde para a comunidade, através do refinamento e entendimento das relações de dados com Big Data.

Big Data e suas aplicações na pandemia

Com a pandemia de COVID-19, a utilização das ferramentas de big data ficou bastante evidente não apenas para a academia, mas também para o público em geral. 

A Organização Mundial da Saúde (OMS) disponibiliza uma base de dados para o acompanhamento dos casos: a plataforma Coronavirus (COVID-19), monitorada e atualizada diariamente.Outra plataforma de nível mundial é o conhecido Worldometer

A Big Data Covid Fiocruz (base do Brasil) contém estatísticas detalhadas de cada estado e o Brasil.io, composto por voluntários, é diariamente atualizado. 

Já o Coronavírus Brasil é uma plataforma mantida pelo governo, que informa os indicadores e evolução dos casos semanalmente. 

É necessário pontuar que o Big Data visa automatizar processos que outrora eram muito lentos. A utilização dos dados armazenados é primordial para que os relatórios, boletins, gráficos, esquemas possam ser gerados. Ainda existem algumas limitações como a segurança e garantia dos dados, muitas vezes ocasionada por brechas no processo de transferência e aquisição deles. Mas certamente com o desenvolvimento dessa área essas falhas serão extintas…

Por isso, além das especializações e aprimoramentos é necessário também utilizar os dados com cuidado. Afinal por onde passamos, ou melhor dizendo: Por onde logamos, deixamos um vasto rastro de dados.

Texto revisado por Darling Lourenço e Ísis V. Biembengut

Cite este artigo:
REZENDE, S. B. Big Data: com grandes quantidades de dados vem grandes responsabilidades. Revista Blog do Profissão Biotec, v.9, 2022. Disponível em: <https://profissaobiotec.com.br/big-data-com-grandes-quantidades-de-dados-vemgrandes-responsabilidades/>. Acesso em: dd/mm/aaaa.

Referências:

Big Data É Crucial Para A Indústria Farmacêutica. Engine. Disponível em: https://enginebr.com.br/big-data-crucial-industria-farmaceutica/. Acesso em: 25 Jan.2022.
Data Na Indústria Farmacêutica. Engine. Disponível em: https://enginebr.com.br/big-data-industria-farmaceutica/. Acesso em: 25 Jan.2022.
KASHYAP, Hirak, et al. Big data analytics in bioinformatics: architectures, techniques, tools and issues. Network Modeling Analysis in Health Informatics and Bioinformatics, 2016, 5.1: 1-28. Disponível em: https://doi.org/10.1007/s13721-016-0135-4.
LEONELLI, Sabina. Philosophy of biology: the challenges of big data biology. Elife, 2019, 8: e47381. Disponível em: 10.7554/eLife.47381.
MARX, Vivien. The big challenges of big data. Nature, 2013, 498.7453: 255-260. Disponível em: https://rdcu.be/cLtre.
Pandemia e big data: O monitoramento do novo coronavírus. Conectar Marketing. Disponível em: https://conectar.marketing/pandemia-e-big-data-o-monitoramento-do-novo-coronavirus/. Acesso em: 25 Jan.2022.
Fonte da imagem destacada: Unsplash.

Sobre Nós

O Profissão Biotec é um coletivo de pessoas com um só propósito: apresentar o profissional de biotecnologia ao mundo. Somos formados por profissionais e estudantes voluntários atuantes nos diferentes ramos da biotecnologia em todos os cantos do Brasil e até mesmo espalhados pelo mundo.

Recentes

Assine nossa newsletter

Ao clicar no botão, você está aceitando receber nossas comunicações.