Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anterior Revisão anterior Próxima revisão | Revisão anterior | ||
02_tutoriais:tutorial4:start [2023/08/15 20:15] 127.0.0.1 edição externa |
02_tutoriais:tutorial4:start [2023/08/15 20:37] (atual) |
||
---|---|---|---|
Linha 295: | Linha 295: | ||
</code> | </code> | ||
- | Para resolver o problema de distribuição de valores assimétricos e truncados no zero é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: | + | Para resolver o problema de distribuição de valores assimétricos e positivos é muito comum utilizar a transformação ''log'', vamos explorar essa transformação: |
<code rsplus> | <code rsplus> | ||
Linha 573: | Linha 573: | ||
</code> | </code> | ||
- | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados, veja [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]. Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! | + | Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados (veja mais detalhes [[http://en.wikipedia.org/wiki/Anscombe's_quartet|aqui]]). Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''y4'' em função de ''x4'' não apresentam nenhuma relação! |
===== Leia mais sobre análise exploratória de dados ===== | ===== Leia mais sobre análise exploratória de dados ===== |