Ferramentas do usuário

Ferramentas do site


03_apostila:05-exploratoria

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
03_apostila:05-exploratoria [2023/08/15 19:46]
127.0.0.1 edição externa
03_apostila:05-exploratoria [2023/08/15 21:45] (atual)
Linha 7: Linha 7:
  
  
-Podemos ​implementar ​a análise ​exploratório ​de dados de duas formas: +Podemos ​conduzir ​a análise ​exploratória ​de dados de duas formas: 
-  * análise numérica: ​computa ​estatísticas descritivas;​ +  * análise numérica: ​computar ​estatísticas descritivas;​ 
-  * análise gráfica: ​explora ​o comportamento e a relação entre as variáveis através de gráficos.+  * análise gráfica: ​explorar ​o comportamento e a relação entre as variáveis através de gráficos.
  
 Nesse tópico utilizaremos os arquivos de dados: Nesse tópico utilizaremos os arquivos de dados:
Linha 127: Linha 127:
 </​code>​ </​code>​
  
-Note que o objeto gerado pela função ''​hist''​ tem classes ​''​histogram'',​ logo pode ser guardado e grafado posteriormente:​+Note que o objeto gerado pela função ''​hist''​ tem a classe ​''​histogram'',​ logo ele pode ser guardado e grafado posteriormente:​
 <code rsplus> <code rsplus>
 > dap.hist = hist( cax$dap, plot=FALSE ) > dap.hist = hist( cax$dap, plot=FALSE )
Linha 149: Linha 149:
 </​code>​ </​code>​
  
-Muitas vezes desejamos comparar gráficos, sendo útil termos mais de uma janela gráfica. A função ''​X11()'' ​(no UNIX) abre uma janela gráfica+Muitas vezes desejamos comparar gráficos, sendo útil termos mais de uma janela gráfica. A função ''​X11()''​ abre janelas gráficas
-sendo que podemos abrir várias:+sendo que podemos abrir várias ​janelas:
 <code rsplus> <code rsplus>
 > hist( cax$dap[ cax$local=="​chauas"​ ] , main="​Chauás"​ ) > hist( cax$dap[ cax$local=="​chauas"​ ] , main="​Chauás"​ )
Linha 225: Linha 225:
 </​code>​ </​code>​
  
-O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação //​bandwidth//​ (''​bw''​). Janela pequenas geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da //​bandwidth//​ apropriada, mas o analista tem controle sobre esse parâmetro:+O parâmetro que controla o comportamento do estimador de densidade é a amplitude da janela de observação ​ou //​bandwidth//​ (''​bw''​). Janela pequenas geram estimativas de densidade com viés pequeno, mas com variância grande. Janelas grandes geram estimativas de densidade com viés grande, mas pequena variância. O ideal é o equilíbrio entre os extremos e o R possui algumas funções que buscam automaticamente da //​bandwidth//​ apropriada, mas o analista tem controle sobre esse parâmetro:
 <code rsplus> <code rsplus>
 > plot( density(cax$dap,​ bw=0.5), col="​red"​ ) > plot( density(cax$dap,​ bw=0.5), col="​red"​ )
Linha 253: Linha 253:
  
 <code rsplus> <code rsplus>
-+> boxplot( cax$dap )
->​boxplot( cax$dap )+
 > >
 > esa = read.csv("​dados/​esaligna.csv",​header=TRUE) > esa = read.csv("​dados/​esaligna.csv",​header=TRUE)
Linha 422: Linha 421:
  
 <box left red | //​**Exercício:​** Dominância em Caixetais// > <box left red | //​**Exercício:​** Dominância em Caixetais// >
-Construa um gráfico da dominância das espécies nos caixetais.+Construa um gráfico da dominância ​(biomassa relativa) ​das espécies nos caixetais.
 </​box>​ </​box>​
  
Linha 523: Linha 522:
 > egr = read.table("​dados/​egrandis.csv",​header=TRUE,​sep=";"​) > egr = read.table("​dados/​egrandis.csv",​header=TRUE,​sep=";"​)
 > coplot( ht ~ dap | idade, data=egr, panel = panel.smooth ) > coplot( ht ~ dap | idade, data=egr, panel = panel.smooth )
-> coplot( ht ~ dap | idade * rot , data=egr, panel = panel.smooth ) +> coplot( ht ~ dap | idade * rotacao ​, data=egr, panel = panel.smooth ) 
-> coplot( ht ~ dap | idade * as.factor(rot) , data=egr, panel = panel.smooth )+> coplot( ht ~ dap | idade * as.factor(rotacao) , data=egr, panel = panel.smooth )
 </​code>​ </​code>​
  
Linha 538: Linha 537:
  
 <box left red | //​**Exercício:​** Inventário em Floresta Plantada II // > <box left red | //​**Exercício:​** Inventário em Floresta Plantada II // >
-Analise a relação entre as variáveis ''​hdom''​ (altura das árvores dominantes) e ''​dap''​ para diferentes regiões (''​regiao''​) e rotações (''​rot''​).+Analise a relação entre as variáveis ''​hdom''​ (altura das árvores dominantes) e ''​dap''​ para diferentes regiões (''​regiao''​) e rotações (''​rotacao''​).
 </​box>​ </​box>​
  
Linha 545: Linha 544:
 Quando o objetivo é explorar a relação entre variáveis quantitativas com o objetivo de construir modelos ou analisar a estrutura de correlação é útil poder fazer gráficos de dispersão das variáveis duas-a-duas. A função **pairs** realiza essa operação automaticamente:​ Quando o objetivo é explorar a relação entre variáveis quantitativas com o objetivo de construir modelos ou analisar a estrutura de correlação é útil poder fazer gráficos de dispersão das variáveis duas-a-duas. A função **pairs** realiza essa operação automaticamente:​
 <code rsplus> <code rsplus>
-> pairs( egr[ , c("​dap","​ht","​hdom","​idade"​)] )+> pairs( egr[ , c("​dap","​ht","​idade"​)] )
 </​code>​ </​code>​
  
Linha 551: Linha 550:
 <code rsplus> <code rsplus>
  
-> pairs( egr[ , c("​dap","​ht","​hdom","​idade"​)] , pch=21, bg=c("​red","​blue","​green"​)[unclass(egr$regiao)] ) +> pairs( egr[ , c("​dap","​ht","​idade"​)] , pch=21, bg=c("​red","​blue","​green", "gold"​)[unclass(as.factor(egr$regiao))] ) 
-> pairs( egr[ , c("​dap","​ht","​hdom","​idade"​)] , pch=21, bg=c("​red","​green"​)[unclass(egr$rot)] )+> pairs( egr[ , c("​dap","​ht","​idade"​)] , pch=21, bg=c("​red","​green"​)[unclass(egr$rotacao)] )
  
 </​code> ​   ​ </​code> ​   ​
Linha 594: Linha 593:
 <code rsplus> <code rsplus>
 > xyplot( ht ~ dap | regiao , data=egr ) > xyplot( ht ~ dap | regiao , data=egr )
-> xyplot( ht ~ dap | regiao * rot , data=egr )+> xyplot( ht ~ dap | regiao * rotacao ​, data=egr )
 </​code>​ </​code>​
  
 Também é possível construir gráficos com suavização:​ Também é possível construir gráficos com suavização:​
 <code rsplus> <code rsplus>
-> xyplot( ht ~ dap | regiao * rot , data=egr, +> xyplot( ht ~ dap | regiao * rotacao ​, data=egr, 
-panel = function(x,​y) + panel = function(x,​y) 
-+ { 
-        panel.xyplot(x,​y) +         ​panel.xyplot(x,​y) 
-        panel.loess(x,​y,​ span=1, col="​red"​) +         ​panel.loess(x,​y,​ span=1, col="​red"​) 
-} )+ } )
 >    >   
 </​code>​ </​code>​
Linha 613: Linha 612:
  
 <box left red | //​**Exercício:​** Relação Hipsométrica da Caixeta II // > <box left red | //​**Exercício:​** Relação Hipsométrica da Caixeta II // >
-Utilizando o pacote lattice, analise a relação dap-altura (''​dap''​ e ''​h''​) em função do caixetal, mas **somente** para as árvores de caixeta (//Tabebuia cassinoides//​).+Utilizando o pacote ​''​lattice''​, analise a relação dap-altura (''​dap''​ e ''​h''​) em função do caixetal, mas **somente** para as árvores de caixeta (//Tabebuia cassinoides//​).
 </​box>​ </​box>​
  
 <box left red | //​**Exercício:​** Relação Altura das Dominantes - Idade em Florestas Plantadas // > <box left red | //​**Exercício:​** Relação Altura das Dominantes - Idade em Florestas Plantadas // >
-Utilizando os dados de floresta plantada (//E. grandis//), analise a relação entre altura das árvores dominantes ('''​hdom'''​) e idade ('''​idade'''​) por rotação (''​'​rot'​''​) e região ('''​regiao'''​).+Utilizando os dados de floresta plantada (//E. grandis//), analise a relação entre altura das árvores dominantes (''​hdom''​) e idade (''​idade''​) por rotação (''​rotacao''​) e região (''​regiao''​).
 </​box>​ </​box>​
  
Linha 629: Linha 628:
 </​code>​ </​code>​
  
-Identificar grupos em cada gráfico de dispersão é mais fácil com a função **splom**, basta utilizar o argumento ​'''​group''':​+Identificar grupos em cada gráfico de dispersão é mais fácil com a função **splom**, basta utilizar o argumento ''​group'':​
 <code rsplus> <code rsplus>
 > splom( egr[ , c("​dap","​ht","​hdom","​idade"​)] , group=egr$regiao ) > splom( egr[ , c("​dap","​ht","​hdom","​idade"​)] , group=egr$regiao )
Linha 635: Linha 634:
 </​code>​ </​code>​
  
-Também é possível adicionar uma //linha de suavização//,​ mas é necessário definir a função de painel (argumento ​'''​painel'''​):​+Também é possível adicionar uma //linha de suavização//,​ mas é necessário definir a função de painel (argumento ''​painel''​):​
 <code rsplus> <code rsplus>
 > splom( egr[ , c("​dap","​ht","​hdom","​idade"​)] , group=egr$regiao,​ > splom( egr[ , c("​dap","​ht","​hdom","​idade"​)] , group=egr$regiao,​
Linha 654: Linha 653:
  
 <box left red | //​**Exercício:​** Biomassa de Árvores de Eucalipto // > <box left red | //​**Exercício:​** Biomassa de Árvores de Eucalipto // >
-Analise a relação entre as variáveis quantitativas dos dados de biomassa de //E. saligna// utilizando a função **splom**. Inclua na sua análise a variável ​'''​classe'''​.+Analise a relação entre as variáveis quantitativas dos dados de biomassa de //E. saligna// utilizando a função **splom**. Inclua na sua análise a variável ''​classe''​.
 </​box>​ </​box>​
  
Linha 674: Linha 673:
  
  
-Também é possível construir um histograma com linhas de densidade, para isso o tipo do histograma deve ser definido como '''​density''':​+Também é possível construir um histograma com linhas de densidade, para isso o tipo do histograma deve ser definido como ''​density'':​
 <code rsplus> <code rsplus>
 > histogram( ~ ht | regiao * rot , dat=egr, type="​density",​ > histogram( ~ ht | regiao * rot , dat=egr, type="​density",​
Linha 698: Linha 697:
  
 <box red left | //​**Exercício:​** Altura das Árvores Dominantes em Florestas Plantadas //> <box red left | //​**Exercício:​** Altura das Árvores Dominantes em Florestas Plantadas //>
-Explore o comportamento da variável altura das árvores dominantes ('''​hdom'''​) por região ('''​regiao'''​) e rotação ('''​rot'''​) na floresta plantada de //E. grandis//.+Explore o comportamento da variável altura das árvores dominantes (''​hdom''​) por região (''​regiao''​) e rotação (''​rot''​) na floresta plantada de //E. grandis//.
 </​box>​ </​box>​
  
 <box red left | //​**Exercício:​** Altura de Árvores de Caixeta //> <box red left | //​**Exercício:​** Altura de Árvores de Caixeta //>
-Analise o comportamento da variável altura ('''​h'''​) das árvores de caixeta.+Analise o comportamento da variável altura (''​h''​) das árvores de caixeta.
 </​box>​ </​box>​
  
Linha 725: Linha 724:
  
 Uma vantagem do pacote lattice é a possibilidade de gráficos quantil-quantil com outras distribuições além da Uma vantagem do pacote lattice é a possibilidade de gráficos quantil-quantil com outras distribuições além da
-distribuição normal. Nos gráficos abaixo, a distribuição observada de DAP das árvores dos caixetais é comparada com a distribuição exponencial ('''​qexp'''​).+distribuição normal. Nos gráficos abaixo, a distribuição observada de DAP das árvores dos caixetais é comparada com a distribuição exponencial (''​qexp''​).
 <code rsplus> <code rsplus>
 > qqmath( ~ dap | local , data=cax, distribution = function(p) qexp(p, 1/mean(x)) ) > qqmath( ~ dap | local , data=cax, distribution = function(p) qexp(p, 1/mean(x)) )
Linha 747: Linha 746:
  
 Dois aspectos devem ser notados no código acima: Dois aspectos devem ser notados no código acima:
-  - A variável ​'''​local'''​ (categórica) aparece **à esquerda** do sinal de modelagem. +  - A variável ''​local''​ (categórica) aparece **à esquerda** do sinal de modelagem. 
-  - O argumento ​'''​subset'''​ faz com que a variável ​'''​local'''​ fique com apenas duas categorias.+  - O argumento ''​subset''​ faz com que a variável ''​local''​ fique com apenas duas categorias.
  
  
Linha 755: Linha 754:
  
 <box 100% red left | //​**Exercício:​** Altura das Árvores em Florestas Plantadas //> <box 100% red left | //​**Exercício:​** Altura das Árvores em Florestas Plantadas //>
-Verifique se a altura das árvores ('''​ht'''​) nas florestas plantadas de //E. grandis// segue distribuição Normal.+Verifique se a altura das árvores (''​ht''​) nas florestas plantadas de //E. grandis// segue distribuição Normal.
  
-Faça uma análise geral e depois por região ('''​regiao'''​) e rotação ('''​rot'''​).+Faça uma análise geral e depois por região (''​regiao''​) e rotação (''​rot''​).
 </​box>​ </​box>​
  
 <box 100% red left | //​**Exercício:​** Biomassa de Árvores de Eucalipto //> <box 100% red left | //​**Exercício:​** Biomassa de Árvores de Eucalipto //>
-Verifique se biomassa total ('''​total'''​) e a biomassa do tronco ('''​tronco'''​) das árvores de //E. saligna// possuem distribuição semelhante. E a biomassa das folhas ('''​folha'''​),​ tem distribuição semelhante à biomassa do tronco?+Verifique se biomassa total (''​total''​) e a biomassa do tronco (''​tronco''​) das árvores de //E. saligna// possuem distribuição semelhante. E a biomassa das folhas (''​folha''​),​ tem distribuição semelhante à biomassa do tronco?
 </​box>​ </​box>​
03_apostila/05-exploratoria.1692139567.txt.gz · Última modificação: 2023/08/15 19:46 por 127.0.0.1