Biotecnologia, Blog do Profissão Biotec (ISSN 2675-6013)>V.5 (2020) do Blog do Profissão Biotec, Ciência, Divulgação Científica, Pesquisa, Pesquisa Brasileira, x_Darling Lourenço

Dados abertos no avanço da ciência e da Biotecnologia

03/12/2020

Aqui vamos mostrar a importância dos dados abertos para o avanço da ciência e da Biotecnologia. Você já ouviu falar nessa prática?

Você já ouviu falar sobre dados abertos? Essa prática está dentro dos temas abordados e discutidos pela ciência aberta, você pode entender melhor sobre o assunto clicando em nosso texto nesse link. O conceito de dados abertos, de forma geral, se baseia na premissa de que dados, provindos de diversas origens (científicas, governamentais, entre outras), devem estar disponíveis para o acesso de todos, sem nenhuma restrição. Ou seja, dentro desse conceito, podemos caracterizar como um “direito” do cidadão poder acessar os dados que lhe interessam sem nenhuma barreira, como a financeira.

Uma definição certeira de dados abertos é disponibilizada pela Open Knowledge Foundation, através da Open Definition: “o termo dados abertos significa que qualquer pessoa pode acessar, usar, modificar e compartilhar livremente para qualquer propósito esse dado (sujeito, no máximo, aos requisitos que preservam a procedência e a abertura)” (tradução livre). Essa prática permite a criação de novos conteúdos e novas aplicações, além da reprodutibilidade.

Neste texto vamos tratar de como os dados científicos são compartilhados, mas antes vamos dar um exemplo diferente. De acordo com a Lei de Acesso à Informação (Lei nº 12.527), os governos estaduais e federal devem manter acessíveis e transparentes os dados dos órgãos públicos, como políticas públicas e gastos dos governos, permitindo aos cidadãos a fiscalização do correto uso dos recursos públicos. O Portal da Transparência do Governo Federal, lançado em 2004, é um dos exemplos de transparência governamental, que recebe reconhecimento dentro e fora do Brasil. Assista o vídeo abaixo para entender melhor!

https://www.youtube.com/watch?v=3aDwEfyV2_o)

Vídeo disponibilizado pela Controladoria Geral da União (CGU) explicando o que pode ser encontrado no Portal Transparência do Governo Federal. Fonte: CGU (https://www.youtube.com/watch?v=3aDwEfyV2_o).

Dados abertos na pesquisa

O movimento dos Dados Abertos está incluso no movimento do acesso aberto (open access), entretanto, ainda não apresenta tanto reconhecimento e nem total compreensão das propostas por parte dos cientistas que permanecem na “zona de conforto” do antigo formato de fazer ciência, ou seja, não compartilhar seus dados.

De forma sucinta, a prática de dados abertos na pesquisa propõe melhores formas de preservação e trocas de dados científicos, a maximização dos retornos dos investimentos em pesquisa e a reutilização de dados de forma adequada para ambas as partes envolvidas.

A prática de dados abertos está fundamentada nos “Princípios FAIR para gestão e administração de dados científicos”. Esses princípios são entendidos como:

F (findable) – encontrável,
A (accessible) – acessível,
I (interoperable) – interoperável,
R (reusable) – reusável.

Então, de acordo com os princípios FAIR, os pesquisadores devem depositar no servidor escolhido os dados da sua pesquisa estruturados de acordo com 3 componentes: um identificador, como o DOI (Digital Object Identifier), os dados e os metadados. Para entender melhor o que é o DOI, acesse o link aqui!

Mas e o que seria considerado um dado científico (dado de pesquisa)? De acordo com o projeto FOSTER (Facilitate Open Science Training for European Research), um dado de pesquisa é “todo material coletado e registrado, comumente aceito na comunidade científica como necessário para validar os resultados de uma pesquisa” (tradução livre). Exemplos são dados numéricos, anotações de laboratório, questionários, vídeos, áudios, espécimes, scripts, algoritmos, metodologias e por aí vai…

Os dados científicos possuem um ciclo de vida (figura abaixo) próprio e valoroso quando utilizados em conjunto com a prática de dados abertos. A primeira etapa é a de planejamento, que ocorre antes de se começar a coleta de dados e é feita pelos cientistas responsáveis pela pesquisa; coleta e análise de dados ocorrem durante o andamento da pesquisa. Após a conclusão da pesquisa, ocorrem as etapas cruciais para o ciclo dos dados abertos: publicação e compartilhamento, arquivamento e reutilização. As últimas etapas possuem a capacidade de promover novas pesquisas por pesquisadores de diferentes locais, auxiliando em um desenvolvimento mais rápido e econômico da ciência!

Etapas envolvidas no ciclo de vida de dados científicos obtidos em trabalhos de pesquisa. A etapa de planejamento ocorre antes da pesquisa começar de fato, as etapas de coleta e análise ocorrem durante a pesquisa, as etapas posteriores ocorrem após a pesquisa ter sido concluída, mas tem a capacidade de promover novas pesquisas. **Fonte:** A autora, baseado em https://www.library.yorku.ca/web/open/overview/ e https://www.youtube.com/watch?v=-wjFMMQD3UA&feature=emb_logo.

Biotecnologia – inovadora na prática de dados abertos ?

Agora que já entendemos um pouco sobre todo o movimento que valoriza a prática de dados abertos e a sua importância para o desenvolvimento e progresso científico, vamos focar nas ciências biológicas, mais especificamente a Biotecnologia.

Uma das áreas mais antigas e beneficiadas na prática de dados abertos é a genômica, responsável pelo estudo do genoma completo dos organismos, você pode ler mais sobre neste link. Essa área está dentro da gama multidisciplinar da biotecnologia e tem avançado bastante nos últimos anos, principalmente com tecnologias que resultam em grandes volumes de dados, como as técnicas de microarranjo e sequenciamento de nova geração (NGS). O compartilhamento desses dados é visto como uma fonte de credibilidade para a pesquisa, o que promoveu a cultura dos dados abertos, principalmente com a construção de bases de dados ou databases (termo em inglês que é mais comumente utilizada).

O National Center for Biotechnology Information (NCBI) é um dos bancos de dados mais conhecidos para informações genômicas. Algumas das informações que podem ser encontradas lá são a base de dados de sequências genéticas de inúmeras espécies, o GenBank; a base de dados de sequências não-curadas, ou seja, não revisada por outros pesquisadores obtidas através de NGS, SRA (Sequence Read Archive); e a base de dados de polimorfismos de nucleotídeo único (SNP), microssatélites, inserções e deleções (Indel), dbSNP. Esses são apenas alguns exemplos de bancos que o NCBI hospeda e vale a pena dar uma conferida no site, uma vez que a o volume de informações é imensa!

Apesar da genômica receber bastante atenção, a proteômica não fica para trás! O próprio NCBI também conta com uma gama de base de dados para proteínas, como a Protein, que é uma coleção de sequências de aminoácidos e, a base de dados de anotação de porções funcionais de proteínas, incluindo as estruturas 3D, a CDD (Conserved Domain Database). Além do NCBI, outro banco de dados para proteína bem importante é o UniProt, um consórcio mantido por diversas entidades que fornece informações estruturais e de sequência de proteínas e, que possui revisão manual de cada informação depositada.

Estrutura da proteína hemoglobina humana (*Homo sapiens*) obtida através de difração de raios X. Código de acesso: 1SI4. **Fonte:** Protein Data Bank (PDB) (https://www.rcsb.org/structure/1SI4).

Outra área dentro da Biotecnologia que promove bastante o uso de dados abertos é a bioinformática. Os bioinformatas, além de utilizarem dados das ciências ômicas, também criam, compartilham e usam dados computacionais, como scripts, algoritmos, pipelines e por aí vai. Dentro dessa área podemos destacar o GitHub e o Kaggle. Além disso, existem diversos repositórios que englobam conjunto de dados (datasets) com diferentes tipos de dados, como o Registry of Open Data on AWS.

Por aqui encerramos nossos exemplos, mas vale a pena ressaltar que existem MUITOS bancos de dados disponíveis, para diversos tipos de dados! Além disso, em dezembro de 2019 a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) lançou a Rede de Repositórios de Dados Científicos do Estado de São Paulo e o repositório “Metabuscador de dados de pesquisa”, iniciativa brasileira que merece nosso destaque.
Você leitor, já tinha consciência dessas práticas? Já havia parado para pensar que o queridinho NCBI está fomentando e praticando ciência aberta, acesso aberto e dados abertos com todas essas formas? Comente conosco o que acha da relevância atual desse tema e continue nos acompanhando!

Texto revisado por Jennifer Medrades e Ísis Biembengut

REFERÊNCIAS:
CALLER, V. The open data explosion. The Scientist. Disponível em <https://www.the-scientist.com/careers/the-open-data-explosion-65248>. Acesso em 09 Out 2020.

DADOS RS. Disponível em <https://dados.rs.gov.br/>. Acesso em 09 Out 2020.

OPEN Definition. Disponível em <https://opendefinition.org/>. Acesso em 09 Out 2020.

PACKER, A. L. e SANTOS, S. Ciência aberta e o novo modus operandi de comunincar pesquisa – Parte I. Scielo em Perspectiva. Disponível em
https://blog.scielo.org/blog/2019/08/01/ciencia-aberta-e-o-novo-modus-operandi-de-comunicar-pesquisa-parte-i/#.X4BkVdBKjDc>. Acesso em 09 Out 2020.

PORTAL de Dados Abertos. Comissão de Valores Mobiliários. Disponível em <http://www.cvm.gov.br/menu/acesso_informacao/dadosabertos/dadosabertos.html>. Acesso em 09 Out 2020.

SPINAK, E. Semana Internacional dos Dados Abertos – o que há de novo?. Scielo em Perspectiva. Disponível em <https://blog.scielo.org/blog/2015/01/07/semana-internacional-dos-dados-abertos-o-que-ha-de-novo/#.X4BdcNBKjDc>. Acesso em 09 Out 2020.

STEPINSKA-USTASIAK, L. Open science, open data. FOSTER. Disponível em <https://www.fosteropenscience.eu/content/open-science-open-data>. Acesso em 09 Out 2020.

WILKINSON, M. D., et al. The FAIR guiding principles for scientific data management and stewardship. Scientific Data [online]. 2016, vol. 1, no. 3. DOI: 10.1038/sdata.2016.18. Disponível em< https://www.nature.com/articles/sdata201618>.

Inscrever-se

0 Comentários

mais antigos

mais recentes Mais votado

Feedbacks embutidos

Ver todos os comentários

Sobre Nós

O Profissão Biotec é um coletivo de pessoas com um só propósito: apresentar o profissional de biotecnologia ao mundo. Somos formados por profissionais e estudantes voluntários atuantes nos diferentes ramos da biotecnologia em todos os cantos do Brasil e até mesmo espalhados pelo mundo.