#funcao para calculo de desequilibrio de ligacao entre duas SNPs #argumentos da funcao: X = objeto dos dados no formato "map" ; Y = objeto dos dados no formato "ped"; snp1 e snp2 = nome das SNPS a serem analisadas. DL <- function(x,y, snp1, snp2) { #criar arquivo com os nomes das snps do arquivo map names.map <- x[,2, drop=FALSE] #nomear a coluna com os nomes das SNPs colnames(names.map) <- "SNP" #criar arquivo somente com os dados dos genotipos do arquivo ped genotipo.ped <-y[, 7:length(y)] #nomear as colunas com os genotipos com o nome das respectivas SNPs colnames(genotipo.ped) <- paste(rep(names.map[,1], each=2), c("a", "b"), sep="") #cria lista com nome das snps selecionadas pelo usuário inf<-c(snp1,snp2) #cria lista com o nome das snps selecionadas pelo usuário sel<-paste(rep(inf,each=2),c("a","b"), sep="") #cria arquivo para armazenar dados gerados no loop snpcl<-c() #loop para selecionar as colunas que serão lidas no próximo loop for(j in seq(1,length(sel),by=2)){ #loop para selecionar as linhas que serão lidas no loop for(i in 1:dim(genotipo.ped)[1]) { #função para identificar nas os valores faltantes no arquivo (0) e substiruir por NA snpcl = c(snpcl,ifelse(genotipo.ped[i,sel][j]==0|genotipo.ped[i,sel][j+1]==0,NA, #função para identificar alelos iguais ao alelo do segundo nivel nas duas colunas, quando essa condição for verdadeira substituir as duas linhas pelo velor 0. ifelse(genotipo.ped[i,sel][j]==levels(genotipo.ped[,j])[2] & genotipo.ped[i,sel][j+1]==levels(genotipo.ped[,j])[2],0, #função para identificar alelos que são diferentes ao alelo do segundo nível nas duas colunas, quando essa condição for verdadeira substituir por 2 e quando for falsa substituir por 1. ifelse(genotipo.ped[i,sel][j]!=levels(genotipo.ped[,j])[2] & genotipo.ped[i,sel][j+1]!=levels(genotipo.ped[,j])[2],2,1)) )) } } #transformar os dados de saída do loop em uma matriz snp.m <- matrix(snpcl, ncol = length(sel)/2,) #calcular a frequencia de todos os gametas possiveis na população. N00 <-length(which(snp.m[,1]==0 & snp.m[,2]==0)) N01 <-length(which(snp.m[,1]==0 & snp.m[,2]==1)) N02 <-length(which(snp.m[,1]==0 & snp.m[,2]==2)) N10 <-length(which(snp.m[,1]==1 & snp.m[,2]==0)) N11 <-length(which(snp.m[,1]==1 & snp.m[,2]==1)) N12 <-length(which(snp.m[,1]==1 & snp.m[,2]==2)) N20 <-length(which(snp.m[,1]==2 & snp.m[,2]==0)) N21 <-length(which(snp.m[,1]==2 & snp.m[,2]==1)) N22 <-length(which(snp.m[,1]==2 & snp.m[,2]==2)) #omitir os valores de NA dos calculos finais NNa <- length(na.omit(snp.m)) #valor do total de genotipos total.pop <-length(snp.m) #total de individuos genotipados N.final <- (total.pop - NNa)/2 #calculo da frequencia dos gametas na população X11 = (N00+N01/2+N10/2+N11/4)/(N.final) X12 = (N02+N01/2+N12/2+N11/4)/(N.final) X21 = (N20+N21/2+N10/2+N11/4)/(N.final) X22 = (N22+N21/2+N12/2+N11/4)/(N.final) #calculo da frequência dos alelos na população p1 = X11+X12 p2 = X21+X22 q1 = X11+X21 q2 = X12+X22 #calculo do desequlibrio de ligação D = (X11*X22)-(X12*X21) #calculo do Dmax if(D >=0){ if (X12<X21){ Dmax = X12 } else { Dmax = X21 } } if (D < 0) { if (-X11>-X22) { Dmax=-X11 } else { Dmax=-X22 } } #calculo do valor de D' Dl= D/Dmax #calculo do valor de correlação de desequilibrio de ligação r2 = D^2/(p1*p2*q1*q2) #calculo da frequencia esperada dos gametas na população esp <- data.frame(X11.o = p1*q1, X12.o = p1*q2, X21.o = p2*q1, X22.o = p2*q2) #calculo da frequencia observada dos gametas na população obs <- data.frame(X11.e = p1*q1 + D, X12.e = p1*q2 - D, X21.e = p2*q1 - D, X22.e = p2*q2 + D) #calculo do qui-quadrado X2 = sum(((obs[1:4]-esp[1:4])/esp[1:4])^2) resultado <- data.frame(D, Dl, r2, X2) names(resultado)<-c("D", "D´", "r²", "qui-quadrado") return(resultado) }
modelo package:unknown R Documentation function to calculate linkage disequilibrium (DL) Description: The function calculate linkage disequelibrium (D) between two SNPs, the function still returns the values of the adjusted linkage disequilibrium (D´), the correlation between two SNPs (r²) and the value of chi-square (X²). The imput data is compatible with Plink format, map and ped files. Usage: DL (x, y, snp1, snp2) Arguments: x - object of a file .map y - object of a file .ped snp1 - name of one SNP to be analysed. Must be included in file.map snp2 - name of the second SNP to be analysed. Must be included in file.map Details: The files must be in .map and .ped format and is no possible run the function with any of arguments=NULL. The files can contain differents chromossomes. Value: For DL the results are a data.frame Author(s): Carolina Mancini References: Plink documentation. Shaun Purcell. May 2010 See Also: genetics package for more functions for genetic population Examples: teste.map <- data.frame(V1=rep(1, 5),V2=paste("rs", 12345:12349, sep=""), V3=rep(0,5),V4=395679:395683) teste.ped <-data.frame(V1=rep(1:75, each=2), V2=1101:1250, V3=rep(0,150), V4=rep(0,150), V5=rep(1,2, each=2,75), V6=rep(- 9, 150), V7=sample(rep(c("A","G",0),50)), V8=sample(rep(c("G","A",0),50)), V9=sample(rep(c("T","C",0),50)), V10=sample(rep(c("C","T",0),50)), V11=sample(rep(c("A","C",0),50)),V12=sample(rep(c("c","A",0),50)), V13=sample(rep(c("G","T",0),50)),V14=sample(rep(c("T","G",0),50)), V15=sample(rep(c("A","G",0),50)),V16=sample(rep(c("G","A",0),50))) DL(teste.map, teste.ped, "name snp1", "name snp2")
Proposta 1: Calcular o desequilíbrio de ligação entre dois alelos em uma determinada população. A função irá calcular os valores de D’, r² , a frequência estimada dos haplótipos, a frequência esperada em caso de equilíbrio de Hardy-Weinberg e o resultado do teste qui-quadrado. Os dados de entrada serão do tipo data.frame e poderão ser lidos a partir de um arquivo txt. O cálculo de LD será feito de forma pareada, o usuário poderá selecionar os alelos de interesse ou fazer a análise para todos os alelos do arquivo. Também será possível selecionar os alelos selecionando a região genômica, nesse caso o data.frame deverá conter informações sobre a posição física (bp) dos alelos. Os dados de saída estão na forma matriz contendo os valores de D’, r² e χ² para cada par de alelos testados. Os resultados da frequência estimada dos haplótipos e da frequência esperada serão visualizados apenas quando o usuário escolher apenas dois alelos o cálculo do LD. Nesse caso o resultado será um data.frame. w05_lecture15.pdf
Proposta 2: Determinação de modelos de regressão logística para fenótipos complexos.
A função irá determinar quais as variáveis estão relacionadas com o fenótipo. Todas as possíveis variáveis preditoras serão testadas, e serão selecionadas as que apresentarem modelo com p-value ≥0.05. As variáveis selecionadas serão submetidas a um teste para identificar colinearidade entre elas. Por fim será construído um modelo de regressão logística com base nas variáveis selecionadas. Os dados de entrada serão em forma de data.frame a partir de um arquivo txt e os dados de saída serão um data.frame contendo o modelo de regressão que melhor explica o fenótipo em questão e um gráfico com os dados e o modelo de regressão.
Carolina, a proposta 1 é bastante interessante. Você irá fazer o cálculo dos índices propostos na unha? Não esqueça de definir a entrada dos dados no help da sua função. A proposta 2 está um pouco confusa. Como são os dados de entrada? Qual modelo você irá usar na primeira etapa? — Juliana Vendrami 2015/03/24 15:05