Você já ouviu falar sobre dados abertos? Essa prática está dentro dos temas abordados e discutidos pela ciência aberta, você pode entender melhor sobre o assunto clicando em nosso texto nesse link. O conceito de dados abertos, de forma geral, se baseia na premissa de que dados, provindos de diversas origens (científicas, governamentais, entre outras), devem estar disponíveis para o acesso de todos, sem nenhuma restrição. Ou seja, dentro desse conceito, podemos caracterizar como um “direito” do cidadão poder acessar os dados que lhe interessam sem nenhuma barreira, como a financeira.
Uma definição certeira de dados abertos é disponibilizada pela Open Knowledge Foundation, através da Open Definition: “o termo dados abertos significa que qualquer pessoa pode acessar, usar, modificar e compartilhar livremente para qualquer propósito esse dado (sujeito, no máximo, aos requisitos que preservam a procedência e a abertura)” (tradução livre). Essa prática permite a criação de novos conteúdos e novas aplicações, além da reprodutibilidade.
Neste texto vamos tratar de como os dados científicos são compartilhados, mas antes vamos dar um exemplo diferente. De acordo com a Lei de Acesso à Informação (Lei nº 12.527), os governos estaduais e federal devem manter acessíveis e transparentes os dados dos órgãos públicos, como políticas públicas e gastos dos governos, permitindo aos cidadãos a fiscalização do correto uso dos recursos públicos. O Portal da Transparência do Governo Federal, lançado em 2004, é um dos exemplos de transparência governamental, que recebe reconhecimento dentro e fora do Brasil. Assista o vídeo abaixo para entender melhor!
Vídeo disponibilizado pela Controladoria Geral da União (CGU) explicando o que pode ser encontrado no Portal Transparência do Governo Federal. Fonte: CGU (https://www.youtube.com/watch?v=3aDwEfyV2_o).
Dados abertos na pesquisa
O movimento dos Dados Abertos está incluso no movimento do acesso aberto (open access), entretanto, ainda não apresenta tanto reconhecimento e nem total compreensão das propostas por parte dos cientistas que permanecem na “zona de conforto” do antigo formato de fazer ciência, ou seja, não compartilhar seus dados.
De forma sucinta, a prática de dados abertos na pesquisa propõe melhores formas de preservação e trocas de dados científicos, a maximização dos retornos dos investimentos em pesquisa e a reutilização de dados de forma adequada para ambas as partes envolvidas.
A prática de dados abertos está fundamentada nos “Princípios FAIR para gestão e administração de dados científicos”. Esses princípios são entendidos como:
- F (findable) – encontrável,
- A (accessible) – acessível,
- I (interoperable) – interoperável,
- R (reusable) – reusável.
Então, de acordo com os princípios FAIR, os pesquisadores devem depositar no servidor escolhido os dados da sua pesquisa estruturados de acordo com 3 componentes: um identificador, como o DOI (Digital Object Identifier), os dados e os metadados. Para entender melhor o que é o DOI, acesse o link aqui!
Mas e o que seria considerado um dado científico (dado de pesquisa)? De acordo com o projeto FOSTER (Facilitate Open Science Training for European Research), um dado de pesquisa é “todo material coletado e registrado, comumente aceito na comunidade científica como necessário para validar os resultados de uma pesquisa” (tradução livre). Exemplos são dados numéricos, anotações de laboratório, questionários, vídeos, áudios, espécimes, scripts, algoritmos, metodologias e por aí vai…
Os dados científicos possuem um ciclo de vida (figura abaixo) próprio e valoroso quando utilizados em conjunto com a prática de dados abertos. A primeira etapa é a de planejamento, que ocorre antes de se começar a coleta de dados e é feita pelos cientistas responsáveis pela pesquisa; coleta e análise de dados ocorrem durante o andamento da pesquisa. Após a conclusão da pesquisa, ocorrem as etapas cruciais para o ciclo dos dados abertos: publicação e compartilhamento, arquivamento e reutilização. As últimas etapas possuem a capacidade de promover novas pesquisas por pesquisadores de diferentes locais, auxiliando em um desenvolvimento mais rápido e econômico da ciência!
Biotecnologia – inovadora na prática de dados abertos ?
Agora que já entendemos um pouco sobre todo o movimento que valoriza a prática de dados abertos e a sua importância para o desenvolvimento e progresso científico, vamos focar nas ciências biológicas, mais especificamente a Biotecnologia.
Uma das áreas mais antigas e beneficiadas na prática de dados abertos é a genômica, responsável pelo estudo do genoma completo dos organismos, você pode ler mais sobre neste link. Essa área está dentro da gama multidisciplinar da biotecnologia e tem avançado bastante nos últimos anos, principalmente com tecnologias que resultam em grandes volumes de dados, como as técnicas de microarranjo e sequenciamento de nova geração (NGS). O compartilhamento desses dados é visto como uma fonte de credibilidade para a pesquisa, o que promoveu a cultura dos dados abertos, principalmente com a construção de bases de dados ou databases (termo em inglês que é mais comumente utilizada).
O National Center for Biotechnology Information (NCBI) é um dos bancos de dados mais conhecidos para informações genômicas. Algumas das informações que podem ser encontradas lá são a base de dados de sequências genéticas de inúmeras espécies, o GenBank; a base de dados de sequências não-curadas, ou seja, não revisada por outros pesquisadores obtidas através de NGS, SRA (Sequence Read Archive); e a base de dados de polimorfismos de nucleotídeo único (SNP), microssatélites, inserções e deleções (Indel), dbSNP. Esses são apenas alguns exemplos de bancos que o NCBI hospeda e vale a pena dar uma conferida no site, uma vez que a o volume de informações é imensa!
Apesar da genômica receber bastante atenção, a proteômica não fica para trás! O próprio NCBI também conta com uma gama de base de dados para proteínas, como a Protein, que é uma coleção de sequências de aminoácidos e, a base de dados de anotação de porções funcionais de proteínas, incluindo as estruturas 3D, a CDD (Conserved Domain Database). Além do NCBI, outro banco de dados para proteína bem importante é o UniProt, um consórcio mantido por diversas entidades que fornece informações estruturais e de sequência de proteínas e, que possui revisão manual de cada informação depositada.
Outra área dentro da Biotecnologia que promove bastante o uso de dados abertos é a bioinformática. Os bioinformatas, além de utilizarem dados das ciências ômicas, também criam, compartilham e usam dados computacionais, como scripts, algoritmos, pipelines e por aí vai. Dentro dessa área podemos destacar o GitHub e o Kaggle. Além disso, existem diversos repositórios que englobam conjunto de dados (datasets) com diferentes tipos de dados, como o Registry of Open Data on AWS.
Por aqui encerramos nossos exemplos, mas vale a pena ressaltar que existem MUITOS bancos de dados disponíveis, para diversos tipos de dados! Além disso, em dezembro de 2019 a Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) lançou a Rede de Repositórios de Dados Científicos do Estado de São Paulo e o repositório “Metabuscador de dados de pesquisa”, iniciativa brasileira que merece nosso destaque.
Você leitor, já tinha consciência dessas práticas? Já havia parado para pensar que o queridinho NCBI está fomentando e praticando ciência aberta, acesso aberto e dados abertos com todas essas formas? Comente conosco o que acha da relevância atual desse tema e continue nos acompanhando!