Sou aluno de Mestrado do Programa de Pós-Graduação em Genética e Biologia Evolutiva do IB/USP, sob orientação do Prof. Dr. Rodrigo Cogni. Desenvolvo o projeto intitulado Variação clinal em genes do sistema imune de Drosophila melanogaster.
O resultado do trabalho final pode ser encontrado no seguinte link: funções finalizadas
— Murillo Fernando Rodrigues 2016/05/13 10:55
Estudos em escala ômica (genômica, transcriptômica, etc.) muitas vezes analisam como um conjunto de genes se comporta. Existem fatores que podem confundir a interpretação do padrão observado (e.g., desequilíbrio de ligação, heterogeneidade de taxas de mutação, etc). É possível que se queira, então, delimitar um conjunto de genes controle, para poder definir se o efeito observado não é resultado de fatores de confusão.
Obbard et al. (2009), por exemplo, estudaram a seleção a longo prazo em genes do sistema imune de Drosophila melanogaster. Para isso, avaliaram a proporção de substituições adaptativas em genes imunes e genes controle próximos àqueles. Os autores explicitaram os critérios adotados para definir os genes controles, que são:
No entanto, falharam em explicitar como fizeram exatamente a escolha dos genes controle:
Também não foi disponibilizada uma tabela com os genes de interesse e seus respectivos genes controle.
Uma das características fundamentais da ciência é a reprodutibilidade. No caso do trabalho anterior, a reprodutibilidade poderia ser alcançada se os autores tivessem elaborado um algoritmo que encontre genes controle de acordo com os critérios determinados.
Input: data.frame contendo informações dos gene de interesse (ID, chromosome, start_location, end_location, biological_function), data.frame com informações de todos os genes nos arredores das localizações dos genes de interesse (incluindo os genes de interesse; com o mesmo header do primeiro data.frame) e a distância ótima (x) entre o gene de interesse e o controle (unidade em kb). 1)
Pseudo-código: 2)
Output: data.frame contendo em cada linha o ID do gene de interesse em uma coluna e cada informação do gene controle correspondente nas outras colunas. Também, serão retornados gráficos exploratórios (histograma e/ou boxplot da distribuição de distâncias entre controle e interesse) comparando com o ideal x.
Entender diferenciação entre populações é uma questão comum em estudos evolutivos. Existem algumas métricas que permitem quantificar diferenciação, sendo Fst uma mais usadas para sumarizar diferenciação populacional. Além disso, o Fst está fortemente associado com variância intra e inter-populacional e pode revelar a ação de seleção natural – com seleção atuando distintivamente sobre populações, a variância intra-populacional diminui e inter-populacional aumenta, o que resulta em altos valores de Fst.
Uma abordagem para se calcular o Fst é o method-of-moments. Em linhas gerais, compara-se a heterozigose entre populações e aquela esperada sobre Hardy-Weinberg 3).
Input: data.frame com estrutura ID (identificação do loco) e as frequências do alelo p para cada uma das populações ($freq. pop_1, freq. pop_2, \ldots, freq. pop_n)$), (opcional) data.frame com ID e pesos para cada uma das entradas do df anterior e um argumento caso queira o Fst global ou par-a-par (no último caso, é retornado o Fst médio).
Descrição da função: serão calculados as Heterozigoses intra-populacionais (Hp), as Heterozigoses médias inter-populacionais (Hm), podendo ou não ser ponderado pelo df de pesos, e a Heterozigose total sob HW (Ht) esperado para cada loco. Caso a opção par-a-par seja selecionada, Hm e Ht serão calculadas para cada par de populações.
Fórmulas:
$$H_p = 2*p_i*(1-p_i)$$
$$H_m = \frac{\sum\limits_{i=1}^{n}peso_i*H^p_i}{n}$$
$$H_t = 2*\bar{p}*(1-\bar{p})$$
$$Fst = \frac{H_t - H_m}{H_t}$$
Output: data.frame contendo o Fst global ou Fst médio de cada locos. Neste último caso, também deverá ser retornada uma matriz com os Fst pair-wise.
Referências:
Genetics in geographically structured populations: defining, estimating and interpreting Fst
Comentários Danilo (gruingas@gmail.com)
1) o help tem que deixar muito claro o que cada coisa nos data.frames quer dizer. Especialmente qual a classificação de “função biológica” que você tinha na cabeça. Isso não muda o que a função faz, mas deve interferir na interpretação dos resultados
2) você tem que incluir algum conjunto de dados (real ou fictício) ou linhas de código que criem dados fictícios para que sua função possa ter um exemplo que roda.
Oi Murilo, Muito legal a sua primeira proposta! Outra coisa para ela é deixar o gráfico opcional de ser plotado ou não. A segunda proposta não tão estimulante e útil como a primeira. Sugiro ficar com a primeira. — Sara