Blog

Google Quer Armazenar Seu Genoma

Por US$ 25 por ano, Google guardará uma cópia de qualquer genoma na nuvem.

O primeiro produto da gigante das buscas para a era do DNA é o Google Genomics, um serviço de computação em nuvem lançado em março desse ano, mas que passou despercebida em meio a uma enxurrada de anúncios de P&D de ponta do Google, como um feito no final do mês passado sobre um plano rebuscado para a batalha contra o câncer com nanopartículas.

 

Google está se aproximando de hospitais e universidades com um novo slogan. Têm genomas? Armazene-os conosco.

Google Genomics poderia se mostrar mais importante do que qualquer uma dessas outras tentativas desesperadas. Conectar e comparar os genomas aos milhares, e logo aos milhões, é o que vai impulsionar as descobertas médicas para a próxima década. A questão de quem irá armazenar os dados já é um foco de crescente competição entre Amazon, Google, IBM e Microsoft.


Google começou a trabalhar no Google Genomics, há 18 meses, se reunindo com cientistas e construindo uma interface, ou API, que lhes permite mover dados de DNA para suas fazendas de servidores e fazer experimentos lá usando a mesma tecnologia de banco de dados que indexa a Web e controla milhares de milhões de usuários da Internet.


“Vimos biólogos partindo do estudo de um genoma por vez para o esrudo de milhões ao mesmo tempo”, diz David Glazer, o engenheiro de software que liderou o esforço e que já foi chefe de engenharia de plataforma para a Google+, a rede social. “A oportunidade é como aplicar os avanços na tecnologia de dados para ajudar com essa transição”.


Alguns cientistas zombam dizendo que os dados de genoma continuam sendo complexos demais para o Google poder ajudar. Mas outros veem uma grande mudança chegando. Quando Atul Butte, especialista em bioinformática em Stanford ouviu Google apresentar seus planos deste ano, ele comentou que agora entendia “como agentes de viagem se sentiram quando viram o Expedia”.


A explosão de dados está acontecendo à medida que laboratórios adotam equipamentos novo e ainda mais rápidos para decodificação do DNA. Por exemplo, o Broad Institute, em Cambridge, Massachusetts, disse que durante o mês de Outubro decodificou o equivalente a um genoma humano a cada 32 minutos. Isso se traduz em cerca de 200 terabytes de dados brutos.


Este fluxo de dados é menor do que o que é rotineiramente tratado por grandes empresas de Internet (ao longo de dois meses, Broad irá produzir o equivalente ao que é carregado no YouTube em um dia), mas excede em muito o que os biólogos têm tratado. Agora, isso está levando a um esforço grande para armazenar e acessar dados em locais centrais, muitas vezes comerciais. O Instituto Nacional do Câncer, disse no mês passado, que iria pagar US$ 19 milhões para mandar cópias do Cancer Genome Atlas de 2,6 petabytes para a nuvem. Cópias dos dados, de milhares de pacientes com câncer, ficarão armazenados nos centros de dados tanto do Google Genomics quanto da Amazon.


A ideia é criar “nuvens de genoma do câncer”, onde os cientistas possam compartilhar informações e rapidamente rodar experimentos virtuais tão facilmente quanto fazer uma pesquisa na Web, diz Sheila Reynolds, uma pesquisadora do Instituto de Biologia de Sistemas, em Seattle. “Nem todo mundo tem a capacidade de baixar um petabyte de dados, ou tem o poder de computação para trabalhar com ele”, diz ela.

Além disso, acelerar o envio de dados de DNA para a nuvem tem se resumido a uma guerra de preços que já dura um ano entre Google e Amazon. Google diz que agora cobra cerca de US$ 25 por ano para armazenar um genoma, e muito mais para fazer cálculos sobre ele. Dados brutos científicos que representam o genoma de uma única pessoa têm cerca de 100 gigabytes de tamanho, embora uma versão refinada do código genético de uma pessoa seja muito menor, menos de um gigabyte. Isso custaria apenas 0,25 centavos de dólar por ano.

O Armazenamento em nuvem está dando um impulso para startups como Tute Genomics, DNAnexus, Seven Bridges e NextCode Health. Estas empresas construíram “navegadores” que hospitais e cientistas podem usar para explorar os dados genéticos. “Google ou Amazon são um meio. Eles estão dizendo: ‘Ei, você pode construir uma empresa genômica em nossa nuvem”, diz Deniz Kural, CEO da Seven Bridges, que armazena dados de genoma para 1.600 pesquisadores na nuvem da Amazon.


O ponto mais importante, diz ele, é que a medicina em breve contará com uma espécie de Internet global do DNA na qual os médicos poderão fazer buscas. “Nossa visão mais ampla sobre o assunto é que se eu tivesse câncer de pulmão, no futuro, os médicos vão sequenciar meu genoma e o genoma do meu tumor e depois compará-los com uma base de dados de 50 milhões de outros genomas”, diz ele. “O resultado será ‘Ei, aqui está o medicamento que irá funcionar melhor para você'”.


No Google, Glazer diz que começou a trabalhar no Google Genomics assim que ficou claro que a biologia ia passar de “produção de dados artesanal para uma escala industrial”. Ele começou a aprender sobre genética fazendo uma aula on-line, Introdução à Biologia, ministrado pelo chefe da Broad, Eric Lander. Ele também teve seu genoma sequenciado e o colocou na nuvem do Google.


Glazer não quis dizer qual o tamanho do Google Genomics ou quantos clientes ele tem agora, mas pelo menos 3.500 genomas de projetos públicos já estão armazenados nos servidores do Google. Ele também diz que não há nenhuma ligação, ainda, entre a nuvem do Google e seus esforços mais especulativos nos cuidados com a saúde, como a empresa que o Google abriu este ano, chamada Calico, para investigar como estender a expectativa de vida humana. “O que os liga é apenas uma percepção crescente de que a tecnologia pode avançar o estado da arte nas ciências da vida”, diz Glazer.


Somalee Datta, um físico que gerencia o maior cluster de computadores da Universidade de Stanford usado para dados genéticos, diz que devido aos recentes cortes de preços, agora custa quase que a mesma coisa para armazenar genomas com Google, Amazon ou em seu próprio centro de dados. “Os preços estão finalmente se tornando razoáveis e acreditamos que eles vão continuar caindo”, diz ela.


Datta diz que alguns cientistas de Stanford começaram a usar o sistema de banco de dados do Google, BigQuery, que a equipe de Glazer tornou compatível com dados de genoma. Ela foi desenvolvida para analisar grandes bancos de dados de spams, documentos da web ou dados de compras dos consumidores. Mas também pode rodar rapidamente os grandes experimentos comparando milhares de genomas humanos que os pesquisadores querem testar. “Às vezes eles querem fazer coisas malucas e você precisa de escala para fazer isso”, diz Datta. “Ela consegue lidar com a escala que a genética pode trazer, então é a tecnologia certa para um problema novo”.

Rodrigo Gaspar

Desenvolvedor Web , com experiência em html 5 , php , css3 , javascript entre outros. Curte o que faz e busca sempre o conhecimento geek.

1 Comentário

  1. Rodrigo Gaspar

    teste!

Envie seu Comentário

This site uses Akismet to reduce spam. Learn how your comment data is processed.