Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
03_apostila:05-exploratoria [2023/08/15 19:46] 127.0.0.1 edição externa |
03_apostila:05-exploratoria [2023/08/15 21:45] (atual) |
||
---|---|---|---|
Linha 7: | Linha 7: | ||
- | Podemos implementar a análise exploratório de dados de duas formas: | + | Podemos conduzir a análise exploratória de dados de duas formas: |
- | * análise numérica: computa estatísticas descritivas; | + | * análise numérica: computar estatísticas descritivas; |
- | * análise gráfica: explora o comportamento e a relação entre as variáveis através de gráficos. | + | * análise gráfica: explorar o comportamento e a relação entre as variáveis através de gráficos. |
Nesse tópico utilizaremos os arquivos de dados: | Nesse tópico utilizaremos os arquivos de dados: | ||
Linha 127: | Linha 127: | ||
</code> | </code> | ||
- | Note que o objeto gerado pela função ''hist'' tem classes ''histogram'', logo pode ser guardado e grafado posteriormente: | + | Note que o objeto gerado pela função ''hist'' tem a classe ''histogram'', logo ele pode ser guardado e grafado posteriormente: |
<code rsplus> | <code rsplus> | ||
> dap.hist = hist( cax$dap, plot=FALSE ) | > dap.hist = hist( cax$dap, plot=FALSE ) | ||
Linha 149: | Linha 149: | ||
</code> | </code> | ||
- | Muitas vezes desejamos comparar gráficos, sendo útil termos mais de uma janela gráfica. A função ''X11()'' (no UNIX) abre uma janela gráfica, | + | Muitas vezes desejamos comparar gráficos, sendo útil termos mais de uma janela gráfica. A função ''X11()'' abre janelas gráficas, |
- | sendo que podemos abrir várias: | + | sendo que podemos abrir várias janelas: |
<code rsplus> | <code rsplus> | ||
> hist( cax$dap[ cax$local=="chauas" ] , main="Chauás" ) | > hist( cax$dap[ cax$local=="chauas" ] , main="Chauás" ) | ||
Linha 225: | Linha 225: | ||
</code> | </code> | ||
- | O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação //bandwidth// (''bw''). Janela pequenas geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da //bandwidth// apropriada, mas o analista tem controle sobre esse parâmetro: | + | O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação ou //bandwidth// (''bw''). Janela pequenas geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da //bandwidth// apropriada, mas o analista tem controle sobre esse parâmetro: |
<code rsplus> | <code rsplus> | ||
> plot( density(cax$dap, bw=0.5), col="red" ) | > plot( density(cax$dap, bw=0.5), col="red" ) | ||
Linha 253: | Linha 253: | ||
<code rsplus> | <code rsplus> | ||
- | > | + | > boxplot( cax$dap ) |
- | >boxplot( cax$dap ) | + | |
> | > | ||
> esa = read.csv("dados/esaligna.csv",header=TRUE) | > esa = read.csv("dados/esaligna.csv",header=TRUE) | ||
Linha 422: | Linha 421: | ||
<box left red | //**Exercício:** Dominância em Caixetais// > | <box left red | //**Exercício:** Dominância em Caixetais// > | ||
- | Construa um gráfico da dominância das espécies nos caixetais. | + | Construa um gráfico da dominância (biomassa relativa) das espécies nos caixetais. |
</box> | </box> | ||
Linha 523: | Linha 522: | ||
> egr = read.table("dados/egrandis.csv",header=TRUE,sep=";") | > egr = read.table("dados/egrandis.csv",header=TRUE,sep=";") | ||
> coplot( ht ~ dap | idade, data=egr, panel = panel.smooth ) | > coplot( ht ~ dap | idade, data=egr, panel = panel.smooth ) | ||
- | > coplot( ht ~ dap | idade * rot , data=egr, panel = panel.smooth ) | + | > coplot( ht ~ dap | idade * rotacao , data=egr, panel = panel.smooth ) |
- | > coplot( ht ~ dap | idade * as.factor(rot) , data=egr, panel = panel.smooth ) | + | > coplot( ht ~ dap | idade * as.factor(rotacao) , data=egr, panel = panel.smooth ) |
</code> | </code> | ||
Linha 538: | Linha 537: | ||
<box left red | //**Exercício:** Inventário em Floresta Plantada II // > | <box left red | //**Exercício:** Inventário em Floresta Plantada II // > | ||
- | Analise a relação entre as variáveis ''hdom'' (altura das árvores dominantes) e ''dap'' para diferentes regiões (''regiao'') e rotações (''rot''). | + | Analise a relação entre as variáveis ''hdom'' (altura das árvores dominantes) e ''dap'' para diferentes regiões (''regiao'') e rotações (''rotacao''). |
</box> | </box> | ||
Linha 545: | Linha 544: | ||
Quando o objetivo é explorar a relação entre variáveis quantitativas com o objetivo de construir modelos ou analisar a estrutura de correlação é útil poder fazer gráficos de dispersão das variáveis duas-a-duas. A função **pairs** realiza essa operação automaticamente: | Quando o objetivo é explorar a relação entre variáveis quantitativas com o objetivo de construir modelos ou analisar a estrutura de correlação é útil poder fazer gráficos de dispersão das variáveis duas-a-duas. A função **pairs** realiza essa operação automaticamente: | ||
<code rsplus> | <code rsplus> | ||
- | > pairs( egr[ , c("dap","ht","hdom","idade")] ) | + | > pairs( egr[ , c("dap","ht","idade")] ) |
</code> | </code> | ||
Linha 551: | Linha 550: | ||
<code rsplus> | <code rsplus> | ||
- | > pairs( egr[ , c("dap","ht","hdom","idade")] , pch=21, bg=c("red","blue","green")[unclass(egr$regiao)] ) | + | > pairs( egr[ , c("dap","ht","idade")] , pch=21, bg=c("red","blue","green", "gold")[unclass(as.factor(egr$regiao))] ) |
- | > pairs( egr[ , c("dap","ht","hdom","idade")] , pch=21, bg=c("red","green")[unclass(egr$rot)] ) | + | > pairs( egr[ , c("dap","ht","idade")] , pch=21, bg=c("red","green")[unclass(egr$rotacao)] ) |
</code> | </code> | ||
Linha 594: | Linha 593: | ||
<code rsplus> | <code rsplus> | ||
> xyplot( ht ~ dap | regiao , data=egr ) | > xyplot( ht ~ dap | regiao , data=egr ) | ||
- | > xyplot( ht ~ dap | regiao * rot , data=egr ) | + | > xyplot( ht ~ dap | regiao * rotacao , data=egr ) |
</code> | </code> | ||
Também é possível construir gráficos com suavização: | Também é possível construir gráficos com suavização: | ||
<code rsplus> | <code rsplus> | ||
- | > xyplot( ht ~ dap | regiao * rot , data=egr, | + | > xyplot( ht ~ dap | regiao * rotacao , data=egr, |
- | + panel = function(x,y) | + | panel = function(x,y) |
- | + { | + | { |
- | + panel.xyplot(x,y) | + | panel.xyplot(x,y) |
- | + panel.loess(x,y, span=1, col="red") | + | panel.loess(x,y, span=1, col="red") |
- | + } ) | + | } ) |
> | > | ||
</code> | </code> | ||
Linha 613: | Linha 612: | ||
<box left red | //**Exercício:** Relação Hipsométrica da Caixeta II // > | <box left red | //**Exercício:** Relação Hipsométrica da Caixeta II // > | ||
- | Utilizando o pacote lattice, analise a relação dap-altura (''dap'' e ''h'') em função do caixetal, mas **somente** para as árvores de caixeta (//Tabebuia cassinoides//). | + | Utilizando o pacote ''lattice'', analise a relação dap-altura (''dap'' e ''h'') em função do caixetal, mas **somente** para as árvores de caixeta (//Tabebuia cassinoides//). |
</box> | </box> | ||
<box left red | //**Exercício:** Relação Altura das Dominantes - Idade em Florestas Plantadas // > | <box left red | //**Exercício:** Relação Altura das Dominantes - Idade em Florestas Plantadas // > | ||
- | Utilizando os dados de floresta plantada (//E. grandis//), analise a relação entre altura das árvores dominantes ('''hdom''') e idade ('''idade''') por rotação ('''rot''') e região ('''regiao'''). | + | Utilizando os dados de floresta plantada (//E. grandis//), analise a relação entre altura das árvores dominantes (''hdom'') e idade (''idade'') por rotação (''rotacao'') e região (''regiao''). |
</box> | </box> | ||
Linha 629: | Linha 628: | ||
</code> | </code> | ||
- | Identificar grupos em cada gráfico de dispersão é mais fácil com a função **splom**, basta utilizar o argumento '''group''': | + | Identificar grupos em cada gráfico de dispersão é mais fácil com a função **splom**, basta utilizar o argumento ''group'': |
<code rsplus> | <code rsplus> | ||
> splom( egr[ , c("dap","ht","hdom","idade")] , group=egr$regiao ) | > splom( egr[ , c("dap","ht","hdom","idade")] , group=egr$regiao ) | ||
Linha 635: | Linha 634: | ||
</code> | </code> | ||
- | Também é possível adicionar uma //linha de suavização//, mas é necessário definir a função de painel (argumento '''painel'''): | + | Também é possível adicionar uma //linha de suavização//, mas é necessário definir a função de painel (argumento ''painel''): |
<code rsplus> | <code rsplus> | ||
> splom( egr[ , c("dap","ht","hdom","idade")] , group=egr$regiao, | > splom( egr[ , c("dap","ht","hdom","idade")] , group=egr$regiao, | ||
Linha 654: | Linha 653: | ||
<box left red | //**Exercício:** Biomassa de Árvores de Eucalipto // > | <box left red | //**Exercício:** Biomassa de Árvores de Eucalipto // > | ||
- | Analise a relação entre as variáveis quantitativas dos dados de biomassa de //E. saligna// utilizando a função **splom**. Inclua na sua análise a variável '''classe'''. | + | Analise a relação entre as variáveis quantitativas dos dados de biomassa de //E. saligna// utilizando a função **splom**. Inclua na sua análise a variável ''classe''. |
</box> | </box> | ||
Linha 674: | Linha 673: | ||
- | Também é possível construir um histograma com linhas de densidade, para isso o tipo do histograma deve ser definido como '''density''': | + | Também é possível construir um histograma com linhas de densidade, para isso o tipo do histograma deve ser definido como ''density'': |
<code rsplus> | <code rsplus> | ||
> histogram( ~ ht | regiao * rot , dat=egr, type="density", | > histogram( ~ ht | regiao * rot , dat=egr, type="density", | ||
Linha 698: | Linha 697: | ||
<box red left | //**Exercício:** Altura das Árvores Dominantes em Florestas Plantadas //> | <box red left | //**Exercício:** Altura das Árvores Dominantes em Florestas Plantadas //> | ||
- | Explore o comportamento da variável altura das árvores dominantes ('''hdom''') por região ('''regiao''') e rotação ('''rot''') na floresta plantada de //E. grandis//. | + | Explore o comportamento da variável altura das árvores dominantes (''hdom'') por região (''regiao'') e rotação (''rot'') na floresta plantada de //E. grandis//. |
</box> | </box> | ||
<box red left | //**Exercício:** Altura de Árvores de Caixeta //> | <box red left | //**Exercício:** Altura de Árvores de Caixeta //> | ||
- | Analise o comportamento da variável altura ('''h''') das árvores de caixeta. | + | Analise o comportamento da variável altura (''h'') das árvores de caixeta. |
</box> | </box> | ||
Linha 725: | Linha 724: | ||
Uma vantagem do pacote lattice é a possibilidade de gráficos quantil-quantil com outras distribuições além da | Uma vantagem do pacote lattice é a possibilidade de gráficos quantil-quantil com outras distribuições além da | ||
- | distribuição normal. Nos gráficos abaixo, a distribuição observada de DAP das árvores dos caixetais é comparada com a distribuição exponencial ('''qexp'''). | + | distribuição normal. Nos gráficos abaixo, a distribuição observada de DAP das árvores dos caixetais é comparada com a distribuição exponencial (''qexp''). |
<code rsplus> | <code rsplus> | ||
> qqmath( ~ dap | local , data=cax, distribution = function(p) qexp(p, 1/mean(x)) ) | > qqmath( ~ dap | local , data=cax, distribution = function(p) qexp(p, 1/mean(x)) ) | ||
Linha 747: | Linha 746: | ||
Dois aspectos devem ser notados no código acima: | Dois aspectos devem ser notados no código acima: | ||
- | - A variável '''local''' (categórica) aparece **à esquerda** do sinal de modelagem. | + | - A variável ''local'' (categórica) aparece **à esquerda** do sinal de modelagem. |
- | - O argumento '''subset''' faz com que a variável '''local''' fique com apenas duas categorias. | + | - O argumento ''subset'' faz com que a variável ''local'' fique com apenas duas categorias. |
Linha 755: | Linha 754: | ||
<box 100% red left | //**Exercício:** Altura das Árvores em Florestas Plantadas //> | <box 100% red left | //**Exercício:** Altura das Árvores em Florestas Plantadas //> | ||
- | Verifique se a altura das árvores ('''ht''') nas florestas plantadas de //E. grandis// segue distribuição Normal. | + | Verifique se a altura das árvores (''ht'') nas florestas plantadas de //E. grandis// segue distribuição Normal. |
- | Faça uma análise geral e depois por região ('''regiao''') e rotação ('''rot'''). | + | Faça uma análise geral e depois por região (''regiao'') e rotação (''rot''). |
</box> | </box> | ||
<box 100% red left | //**Exercício:** Biomassa de Árvores de Eucalipto //> | <box 100% red left | //**Exercício:** Biomassa de Árvores de Eucalipto //> | ||
- | Verifique se biomassa total ('''total''') e a biomassa do tronco ('''tronco''') das árvores de //E. saligna// possuem distribuição semelhante. E a biomassa das folhas ('''folha'''), tem distribuição semelhante à biomassa do tronco? | + | Verifique se biomassa total (''total'') e a biomassa do tronco (''tronco'') das árvores de //E. saligna// possuem distribuição semelhante. E a biomassa das folhas (''folha''), tem distribuição semelhante à biomassa do tronco? |
</box> | </box> |