Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial4:start [2023/08/15 20:04] 127.0.0.1 edição externa |
02_tutoriais:tutorial4:start [2023/08/15 20:37] (atual) |
||
---|---|---|---|
Linha 157: | Linha 157: | ||
Agora parece que tudo está correto! | Agora parece que tudo está correto! | ||
===== Estatística Descritiva ===== | ===== Estatística Descritiva ===== | ||
- | |||
- | [[http://cerradoemquadrinhos.blogspot.com/|{{:02_tutoriais:tutorial4:cerrado38.jpg?600 |}}]] | ||
Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''apply'' para aplicar uma função a alguma dimensão de um objeto: | Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''apply'' para aplicar uma função a alguma dimensão de um objeto: | ||
Linha 297: | Linha 295: | ||
</code> | </code> | ||
- | Para resolver o problema de distribuição de valores assimétricos e truncados no zero é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: | + | Para resolver o problema de distribuição de valores assimétricos e positivos é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: |
<code rsplus> | <code rsplus> | ||
Linha 575: | Linha 573: | ||
</code> | </code> | ||
- | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados, veja [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]. Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! | + | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados (veja mais detalhes [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]). Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! |
===== Leia mais sobre análise exploratória de dados ===== | ===== Leia mais sobre análise exploratória de dados ===== |