Ferramentas do usuário

Ferramentas do site


02_tutoriais:tutorial4:start

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Ambos lados da revisão anterior Revisão anterior
Próxima revisão
Revisão anterior
02_tutoriais:tutorial4:start [2023/08/15 19:17]
127.0.0.1 edição externa
02_tutoriais:tutorial4:start [2023/08/15 20:37] (atual)
Linha 6: Linha 6:
 ====== 4. Tutoriais de Análise Exploratória de Dados ====== ====== 4. Tutoriais de Análise Exploratória de Dados ======
  
-Antes de iniciar uma análise propriamente dita, precisamos conhecer os dados e avaliar problemas com relação às etapas anteriores da pesquisa (coleta, processamento,​ estruturação e digitação dos dados brutos). As variáveis coletadas são aleatórias,​ ou seja, há diferentes fontes de variabilidade associadas a sua representação. Precisamos avaliar essa variabilidade e suas relações com as outras variáveis para poder tomar decisões embasadas sobre as análises que irão testar as hipóteses a respeito dessa variável.+Antes de iniciar uma análise propriamente dita, precisamos conhecer os dados e avaliar problemas com relação às etapas anteriores da pesquisa (coleta, processamento,​ estruturação e digitação dos dados brutos). As variáveis coletadas são aleatórias,​ ou seja, há diferentes fontes de variabilidade associadas a elas. Precisamos avaliar essa variabilidade e suas relações com as outras variáveis para poder tomar decisões embasadas sobre as análises que pretendemos realizar.
  
 Dentre os principais **objetivos** de uma Análise Exploratória de Dados (AED) podemos listar os seguintes: Dentre os principais **objetivos** de uma Análise Exploratória de Dados (AED) podemos listar os seguintes:
Linha 157: Linha 157:
 Agora parece que tudo está correto! Agora parece que tudo está correto!
 ===== Estatística Descritiva ===== ===== Estatística Descritiva =====
- 
-[[http://​cerradoemquadrinhos.blogspot.com/​|{{:​02_tutoriais:​tutorial4:​cerrado38.jpg?​600 ​ |}}]] 
  
 Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''​apply''​ para aplicar uma função a alguma dimensão de um objeto: Vamos usar o mesmo arquivo da sessão anterior para explorar as estatísticas descritivas básicas, começando pela média e pela mediana. Nós já usamos o ''​apply''​ para aplicar uma função a alguma dimensão de um objeto:
Linha 297: Linha 295:
 </​code>  ​ </​code>  ​
  
-Para resolver o problema de distribuição de valores assimétricos e truncados no zero é muito comum utilizar a transformação ''​log'',​ vamos explorar essa transformação:​+Para resolver o problema de distribuição de valores assimétricos e positivos ​é muito comum utilizar a transformação ''​log'',​ vamos explorar essa transformação:​
  
 <code rsplus> <code rsplus>
Linha 575: Linha 573:
 </​code>​ </​code>​
  
-Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dadosveja [[http://​en.wikipedia.org/​wiki/​Anscombe'​s_quartet|aqui]]. Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''​y4''​ em função de ''​x4''​ não apresentam nenhuma relação! ​+Este conjunto de dados foi criado pelo estatístico Frank Anscombe para demonstrar a importância da análise visual de dados (veja mais detalhes ​[[http://​en.wikipedia.org/​wiki/​Anscombe'​s_quartet|aqui]]). Em nossas análises exploratórias não gráficas, vimos que as médias, desvios, correlações e coeficientes de reta são praticamente idênticos, o que indicaria que os dados são similares. Note como são diferentes, apesar das estatísticas similares: o primeiro é uma relação que parece estar adequada às premissas dos modelos lineares, o segundo mostra uma clara relação não linear entre as variáveis, já o terceiro tem um dado influente que promove uma inclinação que não acompanha o conjunto dos dados e promove além da mudança da relação uma não homogeneidade da variância, por fim, o quarto mostra também um ponto muito influente e com alta alavancagem que define a relação entre as variáveis e, caso seja retirado da amostra, as variáveis ''​y4''​ em função de ''​x4''​ não apresentam nenhuma relação! ​
  
 ===== Leia mais sobre análise exploratória de dados ===== ===== Leia mais sobre análise exploratória de dados =====
02_tutoriais/tutorial4/start.1692137872.txt.gz · Última modificação: 2023/08/15 19:17 por 127.0.0.1