Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial4:start [2023/08/15 18:34] 127.0.0.1 edição externa |
02_tutoriais:tutorial4:start [2023/08/15 20:37] (atual) |
||
---|---|---|---|
Linha 6: | Linha 6: | ||
====== 4. Tutoriais de Análise Exploratória de Dados ====== | ====== 4. Tutoriais de Análise Exploratória de Dados ====== | ||
- | Antes de iniciar uma análise propriamente dita, precisamos conhecer os dados e avaliar problemas com relação às etapas anteriores da pesquisa (coleta, processamento, estruturação e digitação dos dados brutos). As variáveis coletadas são aleatórias, ou seja, há diferentes fontes de variabilidade associadas a sua representação. Precisamos avaliar essa variabilidade e suas relações com as outras variáveis para poder tomar decisões embasadas sobre as análises que irão testar as hipóteses a respeito dessa variável. | + | Antes de iniciar uma análise propriamente dita, precisamos conhecer os dados e avaliar problemas com relação às etapas anteriores da pesquisa (coleta, processamento, estruturação e digitação dos dados brutos). As variáveis coletadas são aleatórias, ou seja, há diferentes fontes de variabilidade associadas a elas. Precisamos avaliar essa variabilidade e suas relações com as outras variáveis para poder tomar decisões embasadas sobre as análises que pretendemos realizar. |
Dentre os principais **objetivos** de uma Análise Exploratória de Dados (AED) podemos listar os seguintes: | Dentre os principais **objetivos** de uma Análise Exploratória de Dados (AED) podemos listar os seguintes: | ||
Linha 17: | Linha 17: | ||
* Avaliar se variáveis preditoras apresentam colinearidade; | * Avaliar se variáveis preditoras apresentam colinearidade; | ||
- | Não é objetivo desse tutorial passar por todos esses tópicos e sim, apresentar algumas técnicas da linguagem R para auxiliá-lo a iniciar as análises exploratória dos dados. Essas técnicas passam por duas instrumentações básicas: análise numérica com estatísticas descritivas e análises gráficas, explorando a variabilidade das variáveis e sua relação com outras variáveis. | + | Não é objetivo deste tutorial passar por todos esses tópicos e sim, apresentar algumas técnicas da linguagem R para auxiliá-lo a iniciar as análises exploratória dos dados. Essas técnicas passam por duas instrumentações básicas: análise numérica com estatísticas descritivas e análises gráficas, explorando a variabilidade das variáveis e sua relação com outras variáveis. |
Linha 157: | Linha 157: | ||
Agora parece que tudo está correto! | Agora parece que tudo está correto! | ||
===== Estatística Descritiva ===== | ===== Estatística Descritiva ===== | ||
- | |||
- | [[http://cerradoemquadrinhos.blogspot.com/|{{:02_tutoriais:tutorial4:cerrado38.jpg?600 |}}]] | ||
Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''apply'' para aplicar uma função a alguma dimensão de um objeto: | Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''apply'' para aplicar uma função a alguma dimensão de um objeto: | ||
Linha 178: | Linha 176: | ||
O ''trim'' retira do cálculo da média os valores extremos com o corte definido pelo fator estipulado a partir das observações extremas. Nesse caso, retiramos 10% dos maiores valores e 10% dos menores. Como a média é muito sensível a valores extremos, se houver algum valor muito grande ou pequeno em relação ao resto, a média truncada seria bem diferente da média com todos os dados. | O ''trim'' retira do cálculo da média os valores extremos com o corte definido pelo fator estipulado a partir das observações extremas. Nesse caso, retiramos 10% dos maiores valores e 10% dos menores. Como a média é muito sensível a valores extremos, se houver algum valor muito grande ou pequeno em relação ao resto, a média truncada seria bem diferente da média com todos os dados. | ||
- | Os quantis são também é uma forma de verificar se a distribuição dos valores é simétrica. O padrão da função ''quantile'' é retornar os quartis, que é a divisão dos dados em seus quartos depois de ordená-los: mínimo, 1/4, 1/2, 3/4 e máximo, sendo que a mediana é o segundo quartil onde os dados são divididos pela metade (menores e maiores). Quando usamos a função ''summary'' em um vetor de dados numéricos, esses valores também são apresentados: | + | Os quantis também são uma forma de verificar se a distribuição dos valores é simétrica. O padrão da função ''quantile'' é retornar os quartis, que é a divisão dos dados em seus quartos depois de ordená-los: mínimo, 1/4, 1/2, 3/4 e máximo, sendo que a mediana é o segundo quartil onde os dados são divididos pela metade (menores e maiores). Quando usamos a função ''summary'' em um vetor de dados numéricos, esses valores também são apresentados: |
<code rsplus> | <code rsplus> | ||
quantile(aves$urubu) | quantile(aves$urubu) | ||
Linha 198: | Linha 196: | ||
===== Gráficos Univariados ====== | ===== Gráficos Univariados ====== | ||
- | Os gráficos são ferramentas importantes para avaliarmos as variáveis dos nossos dados. No tópico de gráficos vamos estudar mais fundo as funções associadas a elaboração de gráficos no R, por enquanto vamos apenas aplicar algumas funções básicas sem nos preocuparmos muito com o acabamento dos gráficos. Normalmente a análise exploratória de dados é introspectiva, buscando entender as variáveis e não apresentá-las para alguma audiência. | + | Os gráficos são ferramentas importantes para avaliarmos as variáveis dos nossos dados. No tópico de gráficos vamos estudar mais a fundo as funções associadas a elaboração de gráficos no R, por enquanto vamos apenas aplicar algumas funções básicas sem nos preocuparmos muito com o acabamento dos gráficos. Normalmente a análise exploratória de dados é introspectiva, buscando entender as variáveis e não apresentá-las para alguma audiência. |
Vejamos alguns gráficos básicos de diagnóstico de uma variável numérica, usando como exemplo o avistamento de urubus no Cerrado: | Vejamos alguns gráficos básicos de diagnóstico de uma variável numérica, usando como exemplo o avistamento de urubus no Cerrado: | ||
Linha 279: | Linha 277: | ||
</code> | </code> | ||
- | Essa distribuições de valores não parece nada com uma distribuição normal. Parece muito assimétrica com os dados concentrados nos valores menores. Além disso, tem uma longa cauda para os valores maiores. Várias características desses dados levam a uma distribuição como essa, as principais são: | + | Essa distribuição de valores não parece nada com uma distribuição normal. Parece muito assimétrica com os dados concentrados nos valores menores. Além disso, tem uma longa cauda para os valores maiores. Várias características desses dados levam a uma distribuição como essa, as principais são: |
* o ''cap'' mínimo de inclusão foi 20 mm, ou seja não há como ter valores menores. Mesmo que pudesse, os valores estariam restritos a valores positivos e seria truncado no zero; | * o ''cap'' mínimo de inclusão foi 20 mm, ou seja não há como ter valores menores. Mesmo que pudesse, os valores estariam restritos a valores positivos e seria truncado no zero; | ||
* a estrutura de tamanho de populações estáveis de plantas tem a tendência a ter uma distribuição como essa de ''J'' invertido, devido às variações nas taxas vitais (crescimento, sobrevivência e reprodução) ao longo da sua ontogênese. | * a estrutura de tamanho de populações estáveis de plantas tem a tendência a ter uma distribuição como essa de ''J'' invertido, devido às variações nas taxas vitais (crescimento, sobrevivência e reprodução) ao longo da sua ontogênese. | ||
Linha 297: | Linha 295: | ||
</code> | </code> | ||
- | Para resolver o problema de distribuição de valores assimétricos e truncados no zero é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: | + | Para resolver o problema de distribuição de valores assimétricos e positivos é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: |
<code rsplus> | <code rsplus> | ||
Linha 318: | Linha 316: | ||
/* | /* | ||
===== Exploração de uma Variável Categórica ===== | ===== Exploração de uma Variável Categórica ===== | ||
- | Vamos usar um conjunto de dados de um inventário de árvores, que você baixa [[:dados:dados-caixeta| aqui]]. Leia com atenção a descrição deste conjunto de dados. | + | Vamos usar um conjunto de dados de um inventário de árvores, que você pode baixar [[:dados:dados-caixeta| aqui]]. Leia com atenção a descrição deste conjunto de dados. |
Vamos explorar a variável categórica nome da espécie, com a função ''table'': | Vamos explorar a variável categórica nome da espécie, com a função ''table'': | ||
Linha 410: | Linha 408: | ||
Os dados originais continha 1027 observações, agora o ''caixetaH'' tem 48, pois compilou os dados de altura em sua média para cada espécie em cada uma das localidades. O objeto ''caixAlt'' por sua vez tem 43 linhas e 3 colunas que contém as mesmas médias. Como é possível? \\ | Os dados originais continha 1027 observações, agora o ''caixetaH'' tem 48, pois compilou os dados de altura em sua média para cada espécie em cada uma das localidades. O objeto ''caixAlt'' por sua vez tem 43 linhas e 3 colunas que contém as mesmas médias. Como é possível? \\ | ||
- | No primeiro caso nos temos 3 variáveis: ''local'', ''especie'' e ''x'' (média de altura). No ''caixAlt'' temos as linhas representando as ''espécies'', as colunas representando as ''localidades'' e os valores no interior da ''matrix'' como as médias das alturas. | + | No primeiro caso nós temos 3 variáveis: ''local'', ''especie'' e ''x'' (média de altura). No ''caixAlt'' temos as linhas representando as ''espécies'', as colunas representando as ''localidades'' e os valores no interior da ''matrix'' como as médias das alturas. |
Linha 575: | Linha 573: | ||
</code> | </code> | ||
- | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados, veja [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]. Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! | + | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados (veja mais detalhes [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]). Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! |
===== Leia mais sobre análise exploratória de dados ===== | ===== Leia mais sobre análise exploratória de dados ===== |