Mestrado em Botânica, Instituto de Biociências, USP.
Trabalho Final
Proposta A
Os processos biológicos são frequentemente representados sob a forma de redes, tais como a redes de interação proteína-proteína e vias metabólicas. O estudo das redes biológicas, sua modelagem, análise e visualização são tarefas importantes nas ciências da vida hoje. Um entendimento destas redes é essencial para saber o sentido biológico de grande parte dos dados complexos que está sendo gerado. Esta crescente importância das redes biológicas é também evidenciado pelo rápido aumento de publicações sobre temas relacionados com a rede e o número crescente de grupos de pesquisa relacionadas com esta área. A visualização da rede é um método fundamental que ajuda cientistas na compreensão das redes biológicas e em descobrir propriedades importantes dos processos bioquímicos subjacentes (Bachmaier et al.,2013). A rede é compostas por nós e links. Em redes biológicas, os nós representam genes, proteínas ou metabólitos, enquanto os links representam as interações entre eles. As redes de co-expressão gênica visa entender a associação ou correlação entre os genes através de dados advindos por exemplo do RNA-Seq ou microarranjo.
Assim, a primeira proposta visa criar uma função que gere redes de co-expressão de genes a partir do conjunto de dados do RNA-Seq. A função usará um dataframe contendo os genes e seus respectivos valores de expressão. A partir destes dados será gerado uma matriz de correlação, podendo ter como argumento a correlação de pearson ou spearman. Depois é criado uma matriz de adjacência (0 e 1). Após este procedimento, será possível estabelecer um p-value para retirar somente as correlações que são significantes dentro da rede. A função retornará uma janela gráfica com a rede de co-expressão de genes.
Referência
Bachmaier C, Brandes U, Schreiber F. Biological Networks. 2013. In: Tamassia R, ed. Handbook of Graph Drawing and Visualization. CRC Press, pp.621-651.
Junker Bj¨orn H. Networks in Biology. 2008.In: Junker Bj¨orn H, Schreiber Falk, eds. Analysis of Biological Networks. John Wiley & Sons, New Jersey, pp.3-14.
Proposta B
A segunda proposta visa utilizar um conjunto de dados de atividade enzimática de fungos filamentosos para uma análise exploratória dos dados. A função terá como entrada um dataframe, e no final a função retornará um conjunto de gráficos como boxplot, barplot, histograma e quantil-quantil para avaliar os dados.
em 28/abr/16
A proposta A é simples, razoável e plausível. O monitor Diogo sugeriu você dar uma olhada no pacote igraph para fazer a figura da rede. Seria bom a função retornar objetos com os resultados das correlações, caso o usuário queira guardar essa informação. Também sugiro dar uma olhada na função pairs e diversas variantes dela existentes no R, talvez seja útil mas não necessariamente.
A proposta B é ruim, sem sentindo de ser colocada em uma função. Sugiro fazer a proposta A mesmo.
==== Função co.expr.network ==== co.expr.network<-function(x,method="pearson", p.value=0.05, node.color="orange1",link.color=c("black","gray 50"), link.line=c("solid","dotted"), plot=T) ## Argumentos da função { ## Transpõe os dados para que cada coluna seja um gene expr<- t(x[,-1]) ## Coloca os nomes nas colunas e linhas da tabela de expressão colnames(expr)<-x[,1] ## Cria uma matrix de correlação par-a-par de cada gene para o método de correlação escolhido - "pearson" ou "spearman" corr<-cor(expr,method= method) ## Coloca 0 nas diagonais diag(corr)<-0 ## Cria um arquivo com as correlações entre os genes write.csv(corr,file="correlação.csv") # Indica condição para plotar os scatterplots. Aqui o usuário tem a opção de fazer ou não os scatterplots, T = indica para fazê-los e F = indica para não fazê-los. if(plot==T){ ## Faz um loop para poder criar os scatterplots da matriz de correlação entre os genes. Aqui o usuário precisa mudar para o número de genes que ele tem. for(i in c(0,10,20)){ ## Abre uma janela gráfica X11() ##Faz os scatterplots da correlação entre os genes através da matriz de correlação pairs(corr[(i+1):(i+10),(i+1):(i+10)],lower.panel=panel.smooth, upper.panel=panel.smooth, pch=1,cex.labels =1.0, cex.axis=1.0, font.labels =1.0) } } ## Constrói uma matriz vazia para p-valores com os dados de expressão dos genes pcorr<-matrix(NA,ncol(expr),ncol(expr)) ## Faz um loop para percorrer a matriz for(i in 1:ncol(expr)){ ## Faz um loop para percorrer a matriz for(j in 1:ncol(expr)) ## Calcula do p-valor para correlação entre dois genes pcorr[i,j]<-cor.test(expr[,i],expr[,j])$p.value } ## Coloca o nome dos genes nas colunas da tabela de p-valor colnames(pcorr)<-x[,1] ## Coloca o nome dos genes nas linhas da tabela de p-valor rownames(pcorr)<-x[,1] ## Cria um arquivo do p-valor entre os genes write.csv(pcorr,file="p-valor.csv") ## Verifica o p-valor abaixo do estabelecido para cada gene, e assim até alcançar o término da dimensão da matrix for(i in 1:dim(corr)[1]){ ## Verifica o p-valor abaixo do estabelecido para cada gene,e assim até alcançar o término da dimensão da matrix for(j in 1:dim(corr)[1]){ ## Se na tabela de pcorr,os p-valores de um par de genes for maior ao p-valor estabelecido ou quando os valores são missing values, coloca zero na tabela de correlação. Removendo assim o link que existiria entre dois genes. if(pcorr[i,j]>=p.value | is.na(pcorr[i,j])) corr[i,j]=0 } } ## Carrega o igraph library(igraph) ## Constrói a rede a partir de uma matriz de adjacência g<- graph.adjacency(corr,mode="undirected",weighted=T) ##Cria uma lista de links entre os genes a partir da matriz de adjacência (g) a<-as_edgelist(g) ## Cria um objeto c com NA dentro c<-NA ## Faz um loop da lista entre os genes da matriz de adjacência (g) for(i in 1:nrow(a)){ ##Verifica o p-valor para estes gene e coloca no objeto c c[i]<-pcorr[which(colnames(corr)==a[i,1]),which(colnames(corr)==a[i,2])] } ## Adiciona o p-valor para o objeto c E(g)$pvalue<-c ## Adiciona o nome dos genes colnames(pcorr) ##Deixa a correlação positiva e negativa na lista de genes da matriz de adjacência (g) E(g)$peso<-E(g)$weight # Deixa a correlação em valores absolutos E(g)$weight<-abs(E(g)$weight) ## Cria uma lista de links entre os genes links<-get.edgelist(g, names=TRUE) ## Adiciona a correlação com sinal cor<- E(g)$peso ## Adiciona o p-valor < 0.05 pvalue<-E(g)$pvalue ## Liga os diferentes objetos e coloca em uma lista lista<-cbind(links,cor,pvalue) ## Cria um arquivo da rede dos genes com a correlação e o p-valor < 0.05 write.csv(lista,file="lista_rede.csv") ##Estabelece o layout do gráfico da rede. Este layout é o default da função. layout <- layout.kamada.kawai(g) ## Dá as coordenadas do layout de x e y layout<- norm_coords(layout, ymin=-1, ymax=1, xmin=-1, xmax=1) ## Estabelece a cor dos nós do gráfico da rede V(g)$color<-node.color ## Faz um loop da matriz de correlação for(i in 1:length(E(g)$peso)){ ## Se a correlação for > 0, coloca a cor preta. if(E(g)$peso[i]>0) E(g)$color[i]<-link.color[1] ## Caso a correlação seja < 0, adiciona a cor cinza. else E(g)$color[i]<-link.color[2] } ## Faz um loop da matriz de correlação for(i in 1:length(E(g)$peso)){ ## Se a correlação for > 0, coloca uma linha sólida entre a correlação entre os genes. if(E(g)$peso[i]>0) E(g)$lty[i]<-link.line[1] ## Caso a correlação seja < 0, coloca uma linha pontilhada entre a correlação entre os genes. else E(g)$lty[i]<-link.line[2] } ## Abre uma janela gráfica X11() ## Faz o gráfico da rede com genes que tem o p-valor < 0.05 plot.igraph(g,vertex.size=20,vertex.label.color="black", vertex.label.cex=0.75, rescale=F, layout=layout*0.97, edge.width=2) ## Retorna a lista de genes com os valores de correlação e p-valor da rede toda,e uma lista da rede com as correlações no qual o p-valor é < 0.05 return(list(correlacao=corr,p.valor=pcorr,lista=lista)) }
co.expr.network package:unknown R Documentation Cria uma rede de co-expressão de genes a partir de uma conjunto dados do RNA-Seq. Description: Esta função cria uma rede de co-expressão a partir de um dataframe que contém os valores de expressão de cada gene. Esses valores de expressão gênica é usado para criar uma matriz de correlação que pode ter como método a correlação de Pearson ou Spearman. Além disso, é possível estabelecer um p-valor para selecionar as correlações que são mais significantes na rede. A função retorna para o usuário os arquivos da correlação e p-valor de todos genes, scatterplots da matriz de correlação, uma lista de ligações entre os genes para o p-valor estabelecido, bem como uma janela gráfica da rede. Usage: co.expr.network<-function(x=,method="pearson", p.value=0.05, node.color="orange1",link.color=c("black","gray 50"), link.line=c("solid","dotted"), plot=T) Arguments: x É um dataframe. method Método de correlação usado para análise dos dados. A correlação de Pearson é o padrão, mas pode ser usada a correlação de Spearman. p.value Valor numérico para selecionar as correlações mais significantes na rede. node.color Define a cor dos nós na rede. link. color Define a cor dos links entre os nós. link.line Define o tipo de linha do link entre os nós. plot Define se os scatterplots da função pairs será feito ou não. Details: É necessário o download do pacote igraph. Value: Quando o dataframe é inserido na função, é retornado ao usuário a matriz e os scatterplots da correlação, a matriz com o p-valor, uma lista de ligações entre os genes - onde o p-valor seja abaixo de 0.05, e uma janela gráfica da rede. Author(s): Flaviane Lopes Ferreira flalopesferreira@hotmail.com Example: gene.expression <-read.csv("~/Desktop/Funcao/Genes_expression.csv", header = F) result<-co.expr.network(gene.expression,method="pearson", p.value=0.05, node.color="orange1",link.color=c("black","gray 50"), link.line=c("solid","dotted"), plot=T)