Sou aluno de doutorado do departamento de ecologia e trabalho na interface da ecologia humana com a ecologia senso estrito. Atualmente investigo a distribuição de mamíferos de médio e grande porte em matas secundárias (antigas roças) de diferentes idades, no contexto de comunidades quilombolas do Vale do Ribeira (SP). Também investigo o conhecimento etnoecológico dos quilombolas. Penso que os dados etnoecológicos, levantados por meio de métodos antropológicos, podem trazer informações valiosas e auxiliar em muito a interpretação de dados estritamente ecológicos.
Uma técnica comum em estudos de etnobotânica e etnozoologia é a “listagem livre”, na qual o pesquisador entrevista um conjunto representativo de pessoas de um dado local e pede que o informante liste, por exemplo, os nomes das espécies que são de seu conhecimento. Essa técnica é de rápida aplicação e com ela é possível fazer uma análise exploratória de como determinado conhecimento (faunístico, por exemplo) se distribui na população estudada. Ainda que a aplicação da “listagem livre” seja rápida em campo, o processamento deste tipo de dado pode ser bem trabalhoso, principalmente quando envolve a análise de entrevistas gravadas.
Nesse sentido, a ideia é criar uma função que opere numa planilha de dados, com as espécies nas colunas e os informantes nas linhas, sendo que cada valor representa a ordem em que a espécie foi citada. Esta última informação é importante, assumindo a premissa corrente de que as espécies primeiramente lembradas são as de maior relevância naquele contexto cultural e potencialmente aquelas mais bem conhecidas localmente. Tal função retornaria gráficos simples de dispersão, boxplot, barplot, estimativas de variância (como medida indireta de consenso na população), além de fornecer opções de retorno do tipo: “quais são as 10 espécies mais citadas?”, ou então, “retorne as espécies pela ordem em que (em média)foram citadas”, entre outras possibilidades.Desse modo,essa primeira análise de dados ajudaria no delineamento da pesquisa propriamente dita.
Proposta promissora. Como em toda análise exploratória, há muitas resumos numéricos e gráficos possíveis, certamente mais do que você conseguirá implementar no tempo que tem. Então o primeiro desafio é escolher os gráficos e tabelas de resumo que quer retornar ao usuário. Uma coisa a se levar em conta é que a resposta é uam variável de ranking, portanto algumas estatísticas descritivas e gráficos devem funcionar melhor que outras. Há algumas criadas especialmente para avaliar coerência entre classificações, vale a pena dar uma olhada nisto.
Faltou o plano B.
explora package:nenhum R Documentation Gráficos de análise exploratória a partir de dados preliminares de entrevistas Description: Produz gráficos de análise exploratória de informações contidas em entrevistas preliminares. Os gráficos indicam os informantes que potencialmente detêm um maior conhecimento do tema abordado, e também os elementos contidos nesse tema que potencialmente são mais relevantes e conhecidos localmente. Por exemplo, em estudos de etnobotânica, é possível verificar as espécies mais relevantes em termos do etnoconhecimento. A função também mostra como o conhecimento se distribui em função do gênero e idade dos informantes. Usage: explora(x,n.inf,n.cat,genero=F,idade=F) Arguments: x: Arquivo de dados da classe data.frame com informações sobre os informantes e a ordenação com que as espécies foram citadas por cada informante n.inf: Número de informantes presentes no data.frame de entrada n.cat: Número de espécies presentes no data.frame de entrada genero: Argumento lógico. Por defaut “genero=F” (a função não gera o gráfico do nível de conhecimento em função do gênero). Quando o data.frame de entrada contém a coluna “genero”, sugere-se o uso do argumento “genero=T”. idade: Argumento lógico. Por defaut idade=F (não gera o gráfico de nível de conhecimento em função da idade). Quando o data.frame de entrada contém a coluna “idade”, sugere-se o uso do argumento “idade=T” Details: A função somente opera num objeto da classe data.frame. As colunas e linhas do data.frame de entrada devem ser nomeadas da seguinte maneira: - Coluna “informante”; os nomes nas linhas dessa coluna devem designar os informantes entrevistados. - Coluna “categoria”; os nomes nas linhas dessa coluna devem designar as categorias registras nas entrevistas. - Coluna “dados”; as linhas devem ser preenchidas com números inteiros que representam a ordem com que as categorias foram citadas. 0 indica que a categoria não foi citada. - Coluna “genero”; as linhas são preenchidas por “m” (mulher) e “h” (homem). - Coluna “idade”; as linhas devem indicar a idade do informante Value: São produzidos: (1) gráfico de barras que indica a proporção de categorias citados para cada informante, considerando o total de categorias; (2) gráfico de barras que mostra a proporção com que cada categoria foi citada, considerando o total de pessoas entrevistadas; (3) gráfico de dispersão que mostra os dados brutos da ordem com que cada categoria foi citada por cada informante; (4) gráfico de caixa produzido a partir dos dados citados em (3); (5) gráfico que descreve a relação entre a proporção de categorias citadas e a idade do informante (acompanha este gráfico os resultados do teste não paramétrico de correlação de spearman); (6)gráfico do quantil amostral(proporção de categorias citadas por cada informante) em função do quantil teórico (análise visual da normalidade dos dados); (7)gráfico de dispersão dos valores da proporção de categorias citadas em função do gênero do informante (acompanha este gráfico as probabilidades do erro tipo 1 associadas ao teste paramétrico “t de student” e não paramétrico de wilcox. Author(s): Helbert Medeiros Prado helbertmedeiros@yahoo.com.br References: Bernard, H.R. (1995).Research Methods in Anthropology: Qualitative and Quantitative Approaches. Altamira Press. Crawley, M.J. (2005). Statistics: An Introduction using R. Wiley, Imperial College London, UK. Crawley, M.J. (2007). The R book. Wiley, Wiley, Imperial College London, UK. See Also: Funções: plot, stripchart, boxplot, barplot,qqnorm, qqline, t.test, wilcox.test, cor.test (todas do pacote base do R) Examples: explora(teste.função,n.inf=21,n.cat=20,genero=T,idade=T) explora(teste.função,n.inf=21,n.cat=20,genero=F,idade=F)
explora<-function(x,n.inf,n.cat,idade=FALSE,genero=FALSE) { tabela$dados[tabela$dados==0]<-NA stripchart(tabela$dados~tabela$categoria,vertical=T,pch=1,method="jitter",main="Variação na Ordem de Citação das Categorias",xlab="Categorias",ylab="Valores de Precedência") X11() boxplot(tabela$dados~tabela$categoria, notch=T,main="Distribuição da Ordem de Citação das Categorias",xlab="Categorias",ylab="Valores de Precedência")#produz boxplot para cada espécie X11() barplot(sort(tapply(tabela$dados>0,tabela$categoria,sum,na.rm=T)/n.inf*100),decreasing=T,main="Frequência Relativa de Citação por Categoria",xlab="Categorias",ylab="% dos Informantes") X11() barplot(sort(tapply(tabela$dados>0,tabela$informante,sum,na.rm=T)/n.cat*100),decreasing=T,main="Frequência Relativa de Categorias Citadas por Informante",xlab="Informantes",ylab="% das Espécies") if(idade==TRUE){ ocorrencia<-tapply(tabela$dados>0,tabela$idade,sum,na.rm=T)/n.cat*100 ### vetor de citação de categorias por idade do informante idade<-unique(sort(tabela$idade)) ### vetor de variação na idade dos informantes X11() plot(ocorrencia~idade,main="Relação entre Idade e proporção de categorias citadas",xlab="Variação na Idade dos Informantes",ylab="% de Categorias Citadas") abline(lm(ocorrencia~idade), lty=1, col=2) p=round(cor.test(idade,ocorrencia,method="spearman")$p.value,5) ### objeto com valor de "p" da correlação rho=round(cor(idade,ocorrencia,method="spearman"),5) ### objeto com valor de rho da correlação texto=paste("rho","=",rho," ","p","=",p) ### objeto com os resultados da correlação mtext(texto) } if(genero==TRUE){ mulher=subset(tabela, genero=="m" , select = c(informante, genero,dados))### seleciona mulheres no dataframe dados.mulher=tapply(mulher$dados>0,mulher$informante,sum,na.rm=T)/n.cat ### proporção de categorias citadas por cada mulher homem=subset(tabela, genero=="h" , select = c(informante, genero,dados))### seleciona homens no dataframe dados.homem=tapply(homem$dados>=1,homem$informante,sum,na.rm=T)/n.cat ### proporção de categorias citadas por cada homem vetor.dados=c(dados.homem,dados.mulher)### vetor de dados conjugados vetor.genero=c(rep("homem",length(dados.homem)),rep("mulher",length(dados.mulher))) ### vetor de gênero X11() par(mfrow=c(1,2)) qqnorm(vetor.dados,xlab="Quantis teóricos",ylab="Quantis amostrais") qqline(vetor.dados,lty=2) stripchart(vetor.dados~vetor.genero,vertical=T,pch=1,method="jitter",main="Proporção de Categorias Citadas por Gênero",xlab="Gênero",ylab="Proporção de Categorias Citadas") p.student=round(t.test(dados.homem,dados.mulher)$p.value,5) ### objeto com valor de "p" do teste "t de student" p.wilcox=round(wilcox.test(dados.homem,dados.mulher)$p.value,5) ### objeto com valor de "p" do teste "wilcox" texto2=paste("p.student","=",p.student," ","p.wilcox","=",p.wilcox) ###objeto com os resultados dos testes mtext(texto2) } } explora(x,...)