Biotecnologia, Blog do Profissão Biotec (ISSN 2675-6013), Guest post, Machine Learning, V.10 (2023) Blog do Profissão Biotec

Aprendizado de máquina não-supervisionado

11/09/2023

O Aprendizado de Máquina não-supervisionado é uma subárea voltada para a resolução de problemas complexos que não apresentam rótulos.

O aprendizado de máquina não supervisionado é uma subárea do aprendizado de máquina. Essa subárea tem como características a resolução de problemas complexos e a ausência de supervisão durante o treinamento, isto é, o algoritmo tem poucas ou nenhuma referência sobre os resultados esperados. Isso se dá porque os dados não apresentam rótulos ou relações claras entre si.

Dessa forma, os algoritmos precisam aprender sozinhos com a estrutura dos dados para desvendar essas possíveis relações e trazer informações sobre esses padrões ocultos. Dentre as principais funções do aprendizado não supervisionado é possível citar: Detecção de anomalias e de novidades, visualização e redução de dimensionalidade, clusterização e associação por aprendizado de regra.

Quais as aplicações?

Para entender um pouco melhor, imagine que você tem um atacado com diferentes tipos de produtos e gostaria de extrair informações representativas a partir dos registros de compras, como por exemplo: perfil de consumidor e relações entre produtos. De modo geral, como mencionado anteriormente, o aprendizado de máquina funciona como uma espécie de caixa preta a qual é alimentada com dados e resulta na identificação de padrões ocultos, os quais podem ser representados nas formas de agregados, anomalias, novas representações, entre outros.

Além disso, ao utilizar um algoritmo de associação por aprendizado de regra seria possível identificar tendências nas compras. Por exemplo, pessoas que tendem a comprar leite e achocolatado em pó também tendem a comprar iogurte. Tendo isso em vista, seria interessante rearranjar a disposição dos produtos de tal forma que esses itens ficassem próximos.

Em relação à identificação do perfil dos consumidores, seria possível utilizar um algoritmo de clusterização para detectar grupos de pessoas que apresentam similaridades em suas compras bem como detectar o quão diferentes são essas diferenças. Ademais, também é possível refinar mais ainda esse perfil e identificar subgrupos ao utilizar um algoritmo de clusterização hierárquica.

DNA e números binários — #paratodosverem: imagem ilustrativa de uma molécula de DNA em dupla hélice com números binários (0 e 1) ocupando o fundo da imagem. A imagem inteira possui variações de tons das cores entre azul, verde e preto. Fonte: Pixabay

E quais as aplicações na biotecnologia?

Quanto às aplicações na biotecnologia, essa tecnologia apresenta grandes possibilidades de aplicações biotecnológicas. Um exemplo de aplicação desses algoritmos de clusterização poderia ser a identificação de grupos e subgrupos de micro RNAs (miRNAs) associados a determinadas doenças para uma possível identificação de biomarcadores. Outro exemplo, seria o uso de algoritmos de redução de dimensionalidade em análises de single cell sequencing (scRNAseq), as quais apresentam uma grande quantidade de informações, para a seleção das amostras mais representativas no conjunto de dados.

Além do mais, existem estudos de biologia de sistemas que utilizam as ferramentas de aprendizado não supervisionado para tentar compreender as redes e subredes das interações moleculares a níveis de sistemas genéticos e bioquímicos. Um exemplo disso, é o uso de aprendizado de máquina não-supervisionado em um conjunto de processos nas análises de dados de expressão gênica com o intuito de performar análises dos grupos gênicos e interações proteína-proteína afetados por amostras de células embrionárias tratadas com acetato de Chumbo. A aplicação da inteligência artificial no trabalho deu-se na etapa de identificação de grupos de subredes de proteínas expressas diferencialmente e também para o reconhecimento de grupos gênicos. Essas análises foram feitas utilizando algoritmos de clusterização como a Análise de Componente Principal (PCA) e Clusterização Hierárquica em Análise de Componente Principal (HCPCA).

Conclusão

Por fim, é notável o espaço que o aprendizado de máquina não supervisionado vem adquirindo com o tempo. Ademais, também é interessante ressaltar a possibilidade de gerar novos conhecimento através de dados experimentais disponíveis em domínio público, como foi o caso do trabalho de biologia de sistemas mencionado anteriormente.

Contudo, a avaliação dos resultados ainda pode ser controversa visto que essa tecnologia ainda encontra-se na fronteira do conhecimento, não apresenta feedback com base nos resultados e também apresenta resultados menos claros do que o aprendizado de máquina supervisionado.

Texto escrito em parceria com a omixdata: https://medium.com/omixdata

Hadassa Ortiz – Biotecnologista e Colaboradora do omixdata

Hadassa é formada em biotecnologia e atualmente é mestranda em Biotecnologia pela UFPel. Sua paixão por dados e inteligência artificial surgiu em um curso de Biologia Sintética em 2019, onde percebeu o potencial dessas áreas em aplicações biotecnológicas. Atualmente, sua pesquisa está focada em medicina personalizada e IA.

Referências

BARROS, P. Aprendizagem de Máquina: Supervisionada ou Não Supervisionada?. Opensanca. Disponível em <https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-não-supervisionada-7d01f78cd80a> Acesso em 24 de Ago 2021.
GÉRON, A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O’Reilly Media, Inc., 2019.
HONDA, H., FACURE, M., YAOHAO, P. Os Três Tipos de Aprendizado de Máquina. LAMFO-UnB. Disponível em <https://lamfo-unb.github.io/2017/07/27/tres-tipos-am/> Acesso em 24 de Ago 2021.
REIS, C. F. et al. Systems Biology-Based Analysis Indicates Global Transcriptional Impairment in Lead-Treated Human Neural Progenitor Cells. Frontiers in Genetics Systems Biology Archive, v. 10, n. 791, 2019. doi: https://doi.org/10.3389/fgene.2019.00791.
CHUANG, H.; HOFREE, M.; IDEKER, T. A decade of systems biology. Annual review of cell and developmental biology, v. 26, p. 721-744, 2010. doi: 10.1146/annurev-cellbio-100109-104122.
Fonte da imagem destacada: Pixabay.

Sobre Nós

O Profissão Biotec é um coletivo de pessoas com um só propósito: apresentar o profissional de biotecnologia ao mundo. Somos formados por profissionais e estudantes voluntários atuantes nos diferentes ramos da biotecnologia em todos os cantos do Brasil e até mesmo espalhados pelo mundo.