Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial6b:start [2022/06/16 10:14] adalardo [Variação Explicada] |
02_tutoriais:tutorial6b:start [2023/08/29 19:35] (atual) |
||
---|---|---|---|
Linha 6: | Linha 6: | ||
====== 6b. Partição da Variação dos Dados ====== | ====== 6b. Partição da Variação dos Dados ====== | ||
- | <WRAP center round tip 80%> | + | <WRAP center round box 60%> |
- | <WRAP center round box 80%> | + | == Vídeo gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. == |
- | Video gravado pelo Google Meet em aula síncrona no dia 30 de setembro de 2020. Sem edição. | + | {{ youtube>7ExgVGTbvX0 }} |
- | {{youtube>7ExgVGTbvX0 }} | + | |
- | </WRAP> | + | |
</WRAP> | </WRAP> | ||
Linha 21: | Linha 18: | ||
O teste t, apresentado no [[02_tutoriais:tutorial6:start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>Análise de Variância</wrap> ou <wrap em>ANOVA</wrap>. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística, utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>conceito da partição da variação</wrap>. | O teste t, apresentado no [[02_tutoriais:tutorial6:start|tutorial 6a]], é usado apenas para o caso de termos uma variável resposta numérica contínua e uma preditora categórica com **dois níveis**. Caso a preditora tenha mais do que dois níveis, precisamos usar um outro teste que é uma generalização do teste t, o teste de <wrap em>Análise de Variância</wrap> ou <wrap em>ANOVA</wrap>. O teste está baseado no princípio de partição da variação dos dados. A variação total dos dados é particionada nos componentes do que é explicado e aquele que não é explicado pela variável preditora categórica. Esse conceito é aplicado de maneira mais ampla na estatística, utilizado em outros tipos de estatística e para a tomada de decisão do modelo que melhor explica a variação nos dados. Por isso, vamos focar este tutorial no <wrap em>conceito da partição da variação</wrap>. | ||
- | Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, [[http://www.bio.ic.ac.uk/research/mjcraw/therbook/index.htm/|The R Book]], como segue abaixo: | + | Para exemplificar a partição da variância associada à ANOVA, vamos usar o exemplo de dados de colheita de um cultivar em diferentes tipos de solos, apresentado no livro de Robert Crawley, [[http://www.bio.ic.ac.uk/research/mjcraw/therbook/index.htm/|The R Book]], como segue abaixo: |
Linha 41: | Linha 38: | ||
<code rsplus> | <code rsplus> | ||
are <- c(6,10,8,6,14,17, 9, 11, 7, 11) | are <- c(6,10,8,6,14,17, 9, 11, 7, 11) | ||
- | arg <- c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13) | + | arg <- c(17, 15, 3, 11, 14, 12, 12, 8, 10, 13) |
hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14) | hum <- c(13, 16, 9, 12, 15, 16, 17, 13, 18, 14) | ||
solo <- rep(c("arenoso", "argiloso", "humico"), each = 10) | solo <- rep(c("arenoso", "argiloso", "humico"), each = 10) | ||
Linha 102: | Linha 99: | ||
No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada. | No gráfico esta variação é representada pelos segmentos verticais coloridos. A grande média é definida como a média de produtividade de todos os campos de cultivo (n=30), independente do tipo de solo, e é representada pela linha preta horizontal tracejada. | ||
- | Medimos essa variação total pela ''soma quadrática'': os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. | + | Medimos essa variação total pela ''soma quadrática'': os valores dos desvios dos dados em relação à grande média (segmentos verticais no gráfico) elevados ao quadrado e posteriormente somados. Essa soma quadrática total é nossa medida de variação. |
SQ_{"total"} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 | SQ_{"total"} = \sum_{i=1}^k\sum_{j=1}^n (y_{ij} - \bar{\bar{y}})^2 | ||
Linha 120: | Linha 117: | ||
</code> | </code> | ||
- | Fizemos acima todos os passos isoladamente, pois, alguns desse valores intermediários iremos utilizar mais à frente. | + | Fizemos acima todos os passos isoladamente, pois iremos utilizar mais à frente alguns desses valores intermediários. |
Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição: | Vamos iniciar a construção da nossa tabela de ANOVA, incluindo a medida de variação total na sua posição: | ||
Linha 182: | Linha 179: | ||
par(mar = c(4,4,2,1), las = 1, cex = 1.5) | par(mar = c(4,4,2,1), las = 1, cex = 1.5) | ||
plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0, 1 ,2), each=10)), col = colvector, ylab = "Produtividade (ton/ha)", xlab = "Observações", cex = 1) | plot(x = 1:30, y = cultivar$producao , ylim = c(0,20), xlim = c(0, 30), pch=(rep(c(0, 1 ,2), each=10)), col = colvector, ylab = "Produtividade (ton/ha)", xlab = "Observações", cex = 1) | ||
- | points(x = 1:30, y = mSolosVetor, pch = rep(c(15,16,17), each=10), col = colvector, cex = 1.5) | + | points(x = 1:30, y = mSolosVetor, pch = rep(c(15,16,17), each=10), col = colvector, cex = 1.5) |
segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5) | segments(x0 = 1, y0 = mGeral, x1= 30, col = 1, lty = 2, lwd = 1.5) | ||
segments(x0 = 1:30, y0 = mSolosVetor, y1 = rep(mGeral, 30), col = colvector, lwd =1.5) | segments(x0 = 1:30, y0 = mSolosVetor, y1 = rep(mGeral, 30), col = colvector, lwd =1.5) | ||
Linha 225: | Linha 222: | ||
<code rsplus> | <code rsplus> | ||
- | (fcultiva <- msq[3]/msq[2]) | + | (fcultiva <- msq[3]/msq[2]) |
</code> | </code> | ||
Linha 233: | Linha 230: | ||
- | Só falta agora o cálculo do p-valor associado à estatística F. O F-Fisher é uma distribuição probabilística que tem dois parâmetros: os graus de liberdade dos cálculos da (1) variação média entre e (2) intra. | + | Só falta agora o cálculo do p-valor associado ao [[https://pt.wikipedia.org/wiki/Teste_F|teste F]] e à estatística F. O F-Fisher é uma distribuição probabilística que tem dois parâmetros: os graus de liberdade dos cálculos da (1) variação média entre e (2) intra grupos. |
<code rsplus> | <code rsplus> | ||
Linha 252: | Linha 249: | ||
=== Distribuição de F === | === Distribuição de F === | ||
- | Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística, onde a variável ''y'' é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''pf''. No caso, como utilizamos o argumento ''lower.tail = FALSE'', a função retorna a outra área da curva, representada pela figura a seguir: | + | Os gráficos de outras aulas apresentaram a distribuição de densidade probabilística, onde a variável ''y'' é relacionada à probabilidade de cada valor em intervalos muito pequenos. O valor da probabilidade cumulativa é a área da curva até o valor fornecido, o que é retornado pela função ''pf''. No caso, como utilizamos o argumento ''lower.tail = FALSE'', a função retorna a outra área da curva, representada pela figura a seguir: |
<code rsplus> | <code rsplus> | ||