Medo de falsos positivos

Eu sou o único deus que conhece as chaves / para a armadura onde o raio está fechado. / Não há necessidade disso, não aqui. / Deixe-me persuadi-lo. ~ Aischylos: The Eumenides [1]

Em um artigo muito circulado para aparecer na natureza , Benjamin e 71 co-autores pedem que os níveis de significância sejam apertados da atual convenção de p <0,05 a 0,005. O argumento é que o registro publicado da ciência psicológica contém muitos resultados falsos positivos, levando-nos a acreditar em coisas que não são assim, como o Sasquatch ou a iniciação social. Reduzir o limiar de significância reduziria a incidência de falsos positivos. Ao mesmo tempo, eles dizem, a nova convenção, se adotada, ajudaria a corrigir a crise de replicação. Ou seria? Se for difícil replicar uma descoberta .05 em um determinado nível de poder estatístico, então será difícil replicar uma descoberta .005 nesse mesmo nível de poder. Lembre-se de que o poder estatístico é a probabilidade de encontrar significância [conforme definido pela convenção] com uma dada probabilidade [convencionalmente .8] se a descoberta original for real, ou seja, se for um verdadeiro e não falso positivo. Para que sua proposta seja positivamente relevante para a crise de replicação, os autores propõem que um limiar de significância reduzido seja aplicado apenas a novos testes de hipóteses. Em outras palavras, eles pedem que relatemos uma nova pesquisa somente se p <.005, enquanto nos permite replicá-la com p <.05. [Esta proposta levanta a questão de como sabemos o que é um teste de novela.]

Esta proposta de aperto de parafusos é interessante, mas flerta com incoerência. Lembre-se do velho ditado de que Deus ama p = .055 não menos (ou não muito menos) do que ama p = .045 (e prova do Professor Gelman). Agora, Deus também não se preocupa muito com o estudo realizado antes e passa a ser considerado o teste de hipótese romance e que foi conduzido mais tarde. A ordem desses estudos é teoricamente e estatisticamente irrelevante (Krueger, 2001). Se quisermos realizar primeiro e segundo estudos em padrões estatísticos diferentes, também podemos reverter o argumento. Deixe-nos ser fáceis em testes de hipóteses iniciais porque eles ainda não sabem o que são. Testes iniciais são exploratórios, não confirmatórios (Sakaluk, 2016). Testes iniciais são o modo de forrageamento do cientista. O cientista entende que testes iniciais fáceis produzirão muitas pistas que mais tarde se tornaram sem saída, mas ele e ela também entende que tais testes irão aparecer em muitas descobertas que serão mais tarde contadas como verdadeiras descobertas.

Benjamin et al. conheça os riscos de falsos erros negativos, mas eles não parecem muito preocupados. Esta falta de preocupação é extra-estatística. É um julgamento de valor. Se eles acreditam que os horrores dos falsos positivos são maiores que os horrores dos falsos negativos, eles devem defender um limite p mais rigoroso. Porque eles defendem um limite p mais rígido, podemos reverter-inferir que eles abominam falsos positivos (Krueger, 2017). Mas como alguns de nós argumentaram, precisamos considerar a direção que a ciência levará ao considerar mudanças na prática convencional (Fiedler, Kutzner e Krueger, 2012). No entanto, há considerações estatísticas na medida em que podemos estimar a taxa em que falsos positivos e falsos negativos mudam com mudanças no limiar p. Em experimentos de simulação, descobrimos que abaixar o limiar p degrada a validade geral das inferências indutivas (Krueger & Heck, 2017). Isso ocorre porque a proporção de Misses aumenta de forma mais acentuada do que a proporção de Postagens falsas. Insistir em diminuir o limiar de significância à luz desses achados é colocar uma maior desutilidade em um falso positivo do que um utilitário em um verdadeiro positivo.

E por que .005 e não .01 ou .001? Benjamin et al. admitir que a escolha é tão arbitrária quanto pragmática. Eles se referem à prova social (muitos favorecem) e ao fator Bayes aumentado que acompanha. Quanto menor o valor de p, maior o BF favorecendo a hipótese alternativa. Este é um momento de verdade para os Bayesianos entre os autores. O BF, como se mostra, é uma transformação log-linear do valor p. Nada de estatístico é adicionado até que os priores estejam incluídos, mas essa é outra história.

O relatório de 72 autores vem da literatura crítica sobre testes de significância. Esta literatura resume duas reivindicações:

  1. Os valores de p são fatalmente falhos no sentido de serem incoerentes e não confiáveis;
  2. Os valores de p não são baixos o suficiente.

Os 72 enfatizaram o último ponto, enfatizando assim o primeiro. Certamente, seria difícil registrar ambas as reclamações no mesmo documento. Seria bastante como a velha piada judaica que "A comida era horrível, e as porções eram tão pequenas!"

Há um terceiro ponto, que não é sobre o básico estatístico, mas sobre seu uso. Os críticos queixam-se de que os pesquisadores utilizam despreocupadamente ou servilmente um limiar de significado para fazer inferências categóricas sobre a presença ou ausência de "algo". Nem mesmo Fisher ou Neyman e Pearson defendiam a rígida decisão. Fisher viu o .05 como um limite razoável quando pouco se sabe, e Neyman e Pearson sugeriram que os pesquisadores deveriam usar .05, .01 ou .001 dependendo das utilidades relativas dos dois tipos de erro. Agora, os 72 aproximam-se de exigir uma mudança normativa, um novo critério de significância que seria vinculativo por consenso social e decisão editorial. Com isso, os 72 comprometem o que de outra forma é condenado como o pecado cardinal de ST, o desenho de uma linha brilhante entre ser e não ser.

Existe, de fato, uma psicologia da categorização de linhas brilhantes. O Tajfel adiantado (por exemplo, 1969) propôs a teoria da acentuação como uma maneira de dar sentido às diversas conseqüências da categorização arbitrária (e não arbitrária). Ele relatou o resultado replicável de que os valores colocados em um continuum são percebidos como cada vez menores se eles caem para o lado esquerdo (menor) ou direito (maior) de um ponto de demarcação (Krueger & Clement, 1994). A acentuação perceptiva no domínio dos índices e decisões estatísticas não é uma doença específica que sai do ST.

Uma complicação final que se esconde no relatório 72 é o que fazer com resultados passados. Talvez o 72 significa implicar que todas as descobertas com .05> p> .005 sejam desconsideradas. Na verdade, esta conclusão resulta da sua proposta. Conforme mencionado acima, Deus (e Fisher) não se preocupam com a cronologia relativa dos resultados. Aqui, os 72 podem fazer a diferença. Eles podem optar por registrar e desautorizar todas as suas descobertas passadas com .05> p> .005. Qualquer potencial posterior replicação desses resultados é imaterial porque deveria – de acordo com sua própria lógica – nunca ocorreu.

[1] Aischylos, colocando essas palavras na boca de Athena, enfatiza o poder da persuasão sobre a autoridade. Da mesma forma, nossas práticas científicas devem responder ao argumento fundamentado, não à proclamação por autoridade.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, 22 de julho). Redefinir a significância estatística . Recuperado de osf.io/preprints/psyarxiv/mky9j

Fiedler, K., Kutzner, F., & Krueger, JI (2012). O longo caminho de um controle para a validade propriamente dita: Problemas com um debate falso-positivo com visão curta. Perspectivas sobre Ciências Psicológicas, 7 , 661-669.

Krueger, J. (2001). Teste de significância de hipóteses nulas: sobre a sobrevivência de um método defeituoso. Psicólogo americano, 56 , 16-26.

Krueger, JI (2017). Inferência reversa. Em SO Lilienfeld & ID Waldman (Eds.), Ciência psicológica sob escrutínio: desafios recentes e soluções propostas (pp. 110-124). Nova Iorque, NY: Wiley.

Krueger, J. & Clement, RW (1994). Julgamentos baseados em memória sobre várias categorias: uma revisão e extensão da teoria de acentuação de Tajfel. Revista de Personalidade e Psicologia Social, 67 , 35-47

Krueger, JI, & Heck, PR (2017). O valor heurístico de p na inferência estatística indutiva. Fronteiras em psicologia: Psicologia educacional [Tópico de pesquisa: aspectos epistemológicos e éticos da pesquisa em ciências sociais]. https://doi.org/10.3389/fpsyg.2017.00908

Sakaluk, JK (2016). Explorando pequeno, confirmando grande: um sistema alternativo para as novas estatísticas para o avanço da pesquisa psicológica cumulativa e replicável. Journal of Experimental Social Psychology, 66 , 47-54.

Tajfel, H. (1969). Aspectos cognitivos do preconceito. Journal of Social Issues, 25 , 79-97.