Doutoranda em Zoologia pelo Instituto de Biociências da USP. Tese intitulada “Sistemática Filogenética de Hylodidae (Amphibia: Anura)”.
Exercícios exec
Propostas de trabalho final
Proposta A
Atualmente o GenBank representa um poderoso banco de dados onde as sequências já publicadas em trabalhos científicos são depositadas. Entretanto, o site só permite baixar um arquivo com os dados por grupo taxonômico contendo todos os marcadores (genes) disponíveis, ou precisamos selecionar gene a gene para termos arquivos diferentes para o grupo taxonômico por gene. Minha ideia é fazer uma função que em que a entrada será um arquivo com tudo o que está disponível no GenBank para meu grupo taxonômico de interesse (o arquivo será adquirido através do site http://www.ncbi.nlm.nih.gov/genbank/) , e irá gerar vários arquivos de texto, cada um contendo a lista de táxons para cada marcador (gene). Além disso, o arquivo que é baixado do GenBank apresenta um cabeçalho grande antes de iniciar a sequência propriamente dita. Pretendo, nesta mesma função, inserir um argumento que me permita remover todo esse cabeçalho e deixar apenas as informações que são relevantes, como o nome da espécie e o número de acesso do GenBank. O default do argumento seria FALSE, mantendo todo o cabeçalho; e se TRUE, as informações consideradas excedentes seriam removidas.
Proposta B
O site do GenBank não atualiza os nomes dos táxons das sequências depositadas de acordo com as revisões taxonômicas feitas. Com isso, preciso sempre verificar se a nomenclatura do táxon do GenBank continua a mesma. Minha ideia é fazer uma função que me permita associar os nomes dos táxons das sequências disponíveis no GenBank ao histórico taxonômico da espécie disponível no site “Amphibian Species of the World” (http://research.amnh.org/vz/herpetology/amphibia/). Assim, poderei de maneira otimizada atualizar a nomenclatura de todos os táxons disponíveis no meu arquivo.
Oi Raquel, sua proposta A parece bem tranquila de ser feita. Tente fazer a função de uma maneira genérica, ou seja, a entrada pode ser um arquivo de qualquer taxon, e a saída, os arquivos txt par todos os genes do taxon (mas ver consideração sobre proposta B). Acho que você vai precisar apenas criar uma forma da função ler os nomes dos taxons e dos genes para organizar as informações, e depois indexar da forma que vc quiser para ter os arquivos de saída. Tirar o cabeçalho e\ou filtrar só as informações desejadas também deve ser fácil de implementar.
A proposta B tb é bem tranquila, né? Se vc tiver tempo poderia incorporá-la na A fazendo seu arquivo de saída já atualizado. A única questão é que vc precisa ter a tabela dos sinônimos, para modificar automaticamente no arquivo do genbank. Se isso for fácil de se obter, vale a pena incorporar, mas, aí sua função A serviria apenas para anfíbios (o que tb não é um problema se isso servir para agilizar seu trabalho).
Trabalho Final
Página de ajuda/ Help
sep.gen package: nenhum R documentation SEPARANDO GENES DO GENBANK Description: sep.gen é uma função que abre uma lista de sequências de nucleotídeos do GenBank salvos em arquivo com extensão “.fasta” e resulta em listas contendo apenas os genes de interesse que serão salvas em seu diretório de trabalho com extensão “.fasta”. Para executar essa função é necessário abrir o pacote “ape”. Usage: sep.gen (x, gen=”16s”, saida=”.fasta”) Arguments: x Interpretado como nome do arquivo “.fasta” de entrada. Ver details. gen Seleciona genes de interesse. Permite mais de um gene. Default = ”16s”. saida Nome no qual o arquivo “.fasta” será salvo em seu diretório de trabalho. Default = “gen selecionado.fasta”. Details: Para executar a função sep.gen é necessário abrir o pacote “ape”. Portanto, utilize as funções install.package(“ape”) e library(“ape”) antes de iniciar a função. O objeto de entrada (x) da função deve ser um arquivo de extensão “.fasta”. Para obtê-lo é necessário acessar a página do GenBank através do site http://www.ncbi.nlm.nih.gov/genbank/, selecionar “nucleotide” e colocar o grupo taxonômico de interesse na opção search. Salvar o arquivo em seu diretório na opção Send to -> file -> format -> FASTA. No argumento saida é possível colocar informações extras no nome do arquivo de saída. Ver examples. Warning: Se desejar recuperar um gene que não está disponível no seu arquivo de entrada aparecerá a s eguinte mensagem de erro: Erro em x[[i]] : índice fora de limites Author: Rachel Montesinos kelmontesinos@gmail.com Reference: http://www.ncbi.nlm.nih.gov/genbank/ http://cran.r-project.org/web/packages/ape/ Examples: ## No site do GenBank, busque sequências da família de anuros Hylodidae e salve em arquivo “Hylodidae.fasta”. ## objeto <- sep.gen (x="Hylodidae.fasta", gen=c("16s","rag"), saída=.22abr13) # selecionando e criando dois arquivos “.fasta” no meu diretório. Um com nome “16s.22abr13.fasta” contendo as sequências do gene 16s e outro “rag.22abr13.fasta” contendo as sequências do gene Rag-1.
Código da função sep.gen
sep.gen<-function(x, gen="16S", saida=".fasta") { dados<-read.dna(file=x, format="fasta", as.character=T, as.matrix=F) gene<-list() for(i in 1:length(gen)) { gene[[i]]<-dados[grep(gen[i], names(dados),ignore.case=T)] save<-write.dna(x=gene[[i]], file=paste(gen[i],saida, sep=""), format="fasta", nbcol=1, colw=100) } return(gene) }