O Statsman sempre toca duas vezes

Dê uma outra olhada no padrão de resultados.

Matej Kastelic/Shutterstock

Fonte: Matej Kastelic / Shutterstock

Aqueles que prestam atenção à cena da ciência da psicologia sabem que outro espectro está perambulando pelas ruas, e seu nome é Failure to Replicate . A maioria das descobertas, cães de guarda e vigilantes nos dizem, são falsas, em psicologia, medicina, e Deus sabe onde mais. As razões são muitas, mas, no topo da lista, encontramos travessuras humanas. Coletivamente, essas travessuras são conhecidas pelo epíteto de p-hacking . O ‘p’ representa o valor de p que você colhe dos testes de significância estatística, e o ‘hacking’ refere-se a um conjunto de práticas (auto) enganosas que deprimem esses p-valores abaixo do limiar convencional de 0,05 para que os pesquisadores declarem um resultado significativo no sentido de que a hipótese nula de ruído torna os dados obtidos improváveis.

Se contemplarmos um único estudo com um p-valor de, por exemplo, 0,03, não podemos, a partir deste resultado, concluir que foi hackeado. Precisamos de algumas informações sobre como os pesquisadores lidaram com seus negócios ou precisamos dos resultados dos estudos de replicação para procurar padrões reveladores. Se houver uma tentativa de replicação e ela produzir p = 0,07, seria tão imprudente declarar a descoberta original nula como seria declarar a vitória sobre a hipótese nula após o primeiro estudo sozinho. Mais dados são (como escrevem estes dias) necessários.

Suponha que tenhamos vários estudos de replicação. Agora o enredo engrossa. Podemos observar a distribuição dos valores de p e implantar as ferramentas de análise da curva p (Simonsohn, Nelson, & Simmons, 2014). A idéia básica é que, sob qualquer conjunto de suposições racionais, a distribuição de freqüência dos valores de p pode ser distorcida, mas seria unimodal. Não deveria haver nenhum pico local, e não deveria haver um pico particular na área doce entre 0,05 e 0,01, a área que tanto produz significância quanto economiza recursos. Esse pico local seria suspeito porque sabemos que a distribuição do valor de p é plana (uniforme) sob uma hipótese nula verdadeira e cada vez mais distorcida (com valores p menores) sob uma hipótese nula falsa (Krueger & Heck, 2018) .

A análise da curva P não explora as informações disponíveis. Examinando um conjunto de estudos, também temos – ou podemos calcular – informações sobre o tamanho da amostra (ou graus de liberdade) e o tamanho do efeito. Ao longo dos estudos, as intercorrelações entre valores de p, tamanho da amostra (df) e tamanho do efeito (ES) podem ser reveladoras ou, pelo menos, podem – como os especialistas contemporâneos gostam de dizer – “levantar questões”.

Para ilustrar o potencial desse tipo de abordagem [e pode não ser novidade], utilizo dados de uma publicação de Lasaletta et al. (2014), novamente, não para impugnar os autores, mas para tentar um tipo de análise estatística padrão. Os autores procuraram testar a interessante hipótese de que estar em um estado de espírito nostálgico reduz a necessidade e a valorização do dinheiro. Em seis estudos, eles descobrem que a nostalgia aumenta a disposição de pagar pelos produtos, aumenta a generosidade no jogo de um ditador, reduz a importância percebida do dinheiro, reduz o valor percebido do dinheiro, aumenta a disposição de suportar estímulos aversivos por uma determinada quantia de dinheiro e reduz o tamanho percebido de certas moedas. Os seis valores de p são 0,031, 0,020, 0,045, 0,027, 0,062 e 0,026. Observe o agrupamento na área doce entre 0,05 e 0,01, com uma exceção tolerável. Isso fornece apenas motivos fracos de preocupação, porque os autores podem ter previsto um tamanho de efeito médio por toda parte, feito uma análise de poder e coletado a amostra aconselhável (mas não relatam que fizeram nada disso). Os tamanhos de efeito são 0,55, 0,48, 0,46, 0,48, 0,37 e 0,63. Eles são médios (onde d é em torno de 0,5, sendo d a razão da diferença entre as médias sobre o desvio padrão dentro do grupo). Mas também há variação no df (tamanho da amostra), ou seja, 67, 125, 81, 98, 102 e 56.

Agora podemos intercorrelacionar p, df e ES, e perguntar se os resultados “levantam questões”. Aqui está o que nós obtemos: Primeiro, a correlação entre p-valores e ES, r (p, ES), é -.71. Tamanhos de efeito maiores combinam com p-valores menores. Isso é o que esperaríamos se tivéssemos previsto o mesmo efeito médio para todos os seis estudos, resultando na mesma análise de potência e no mesmo df. Então ES, não sendo perfeitamente idêntico ao estudo, correlacionaria negativamente com p. Em segundo lugar, a correlação entre o tamanho da amostra (df) e o tamanho do efeito (ES), r (df, ES), é -.68. ES maior vai com amostras menores. Isso é o que esperaríamos se as diferenças em ES tivessem sido previstas e as análises de energia tivessem produzido recomendações diferentes para o tamanho da amostra. Portanto, temos uma correlação, r (p, ES), que faz sentido se o ES constante e médio tivesse sido previsto, de modo que df pudesse ser constante. E temos outra correlação, r (df, ES), que faz sentido se a variação no ES tivesse sido prevista, de modo que pequenas amostras fossem suficientes para grandes efeitos esperados. É um ou outro, não os dois.

Ter duas correlações conflitantes “levanta questões” sobre o terceiro, a correlação entre df e p. Nós achamos que r (df, p) = .03. Amostras maiores podem produzir os mesmos valores de p (em média) do que pequenas amostras se as diferenças em ES foram previstas, e as análises de potência produziram diferentes tamanhos de amostra. Em outras palavras, precisa

as previsões de potência encolhem o intervalo dos valores p obtidos e separam-nos de df.

Para revisar, ES é negativamente correlacionado com p e df. Ou seja, conforme o tamanho do efeito aumenta, os valores p e os tamanhos das amostras ficam menores. Este é o resultado conflitante. Novamente, podemos imaginar como, à medida que o ES fica maior, p fica menor sem uma mudança no df. E podemos imaginar como, à medida que o ES se torna maior, o df fica menor sem muita mudança em p. Mas não podemos imaginar os dois ao mesmo tempo. Podemos agora perguntar que tipo de correlação entre p e df temos o direito de esperar se não houvesse diferenças no ES que se correlacionassem negativamente com p e com df. A correlação parcial entre p e df, controlando para ES é -.89. Portanto, se a variação no ES for desconhecida, amostras maiores produzirão valores p mais baixos. Isso não aconteceu aqui, e levanta a questão: Por que há variação considerável em df com o resultado de que df não está relacionado a p?

Uma análise alternativa

Respondendo a este ensaio, Uli Schimmack propôs esta análise:

O Teste de Variância Insuficiente é o teste mais poderoso de viés de publicação (ou alguns outros QRPs de peixe).

Passo 1
Converta os valores p em z-scores usando z = -qnorm (p / 2)

p = c (0,031, 0,020, 0,045, 0,027, 0,062, 0,026)
z = -qnorm (p / 2)
z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Passo 2
Calcule a variância dos escores z
var.z = var (z)
var.z
[1] 0.02808286

etapa 3
comparar a variância observada com a variância esperada (desvio padrão de z-scores = 1)
pchisq (var.z * (k-1), k-1) com k = número de valores p (6)

pchisq (var.z * 5,5)
[1] 0.0003738066

Conclusão: A probabilidade de que os valores-p provenham de um conjunto de estudos independentes é muito pequena, p = 0,0004.Fisher observou há muito tempo, “o princípio político de que qualquer coisa pode ser provada pela estatística surge da prática de apresentar apenas um subconjunto selecionado dos dados disponíveis ”(Fisher 1955, p. 75) [graças a Deborah Mayo pela citação]

https://replicationindex.wordpress.com/…/the-test-of…/

Referências

Krueger, JI, & Heck, PR (2018). Testando o teste de significância. Collabra: Psychology, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C. e Vohs, KD (2014). A nostalgia enfraquece o desejo de dinheiro. Journal of Consumer Research, 41 , 713-729.

Simonsohn, U., Nelson, LD e Simmons, JP (2014). Curva P: Uma chave para a gaveta de arquivos. Jornal de Psicologia Experimental: Geral, 143, 534-547