Problema de replicação de pesquisa da psicologia

Até agora, muitos de vocês não ouviram falar sobre o projeto de reprodutibilidade, onde 100 achados psicológicos foram submetidos a tentativas de replicação. No caso de você não estar familiarizado com isso, os resultados deste projeto foram menos do que um endosso de pesquisa no campo: das 89 repetições esperadas, apenas 37 foram obtidas e o tamanho médio dos efeitos caiu drasticamente; A pesquisa de psicologia social em particular parecia excepcionalmente ruim nesse sentido. Isso sugere que, em muitos casos, seria bem servido, levando muitos achados psicológicos com alguns grãos de sal.

Naturalmente, isso leva muitas pessoas a se perguntarem se há alguma maneira de estarem mais confiantes de que um efeito é real , por assim dizer. Um possível meio através do qual sua confiança pode ser reforçada é se a pesquisa em questão contém ou não replicações conceituais.

O que isso se refere são casos em que os autores de um manuscrito relatam os resultados de vários estudos diferentes que pretendem medir a mesma coisa subjacente com métodos variáveis; isto é, eles estão estudando o tópico A com os métodos X, Y e Z. Se tudo isso aparecer positivo, você deve estar mais confiante de que um efeito é real. Na verdade, tive um documento rejeitado mais de uma vez por apenas conter um único experimento. Os periódicos muitas vezes querem ver vários estudos em um único documento, e isso provavelmente é parte do motivo: um único experimento é certamente menos confiável do que vários.

Flickr/Michael Caroe Andersen
Não vai a lugar algum, mas pelo menos é tão confiável
Fonte: Flickr / Michael Caroe Andersen

De acordo com a conta do moderador desconhecido da falha na replicação, os achados da pesquisa psicológica são, na essência, muitas vezes inconstantes. Alguns achados podem depender da hora do dia em que as medidas foram tomadas, o país da amostra, alguns detalhes particulares do material de estímulo, seja o experimentador como homem ou mulher; você o nomeia. Em outras palavras, é possível que esses efeitos publicados sejam reais, mas apenas ocorrem em alguns contextos bastante específicos dos quais não somos adequadamente conscientes; isto é, eles são moderados por variáveis ​​desconhecidas. Se for esse o caso, é improvável que alguns esforços de replicação sejam bem-sucedidos, pois é bastante improvável que todos os moderadores únicos, desconhecidos e não apreciados também sejam replicados. É aí que as replicações conceituais entram: se um artigo contém duas, três ou mais tentativas diferentes de estudar o mesmo tópico, devemos esperar que o efeito que eles aparecem seja mais provável que se estenda além de um conjunto muito limitado de contextos e que deve replicar mais prontamente.

Essa é uma hipótese lisonjeira para explicar essas falhas de replicação; não há replicação suficiente na pré-publicação, por isso as descobertas limitadas estão sendo publicadas como se fossem mais generalizáveis. A hipótese menos lisonjeira é que muitos pesquisadores são, por falta de uma palavra melhor, trapaceando empregando táticas de pesquisa desonesta. Essas táticas podem incluir a hipótese após a coleta de dados, apenas a coleta de participantes até que os dados digam o que os pesquisadores querem e depois param, dividindo amostras em diferentes grupos até que as diferenças sejam descobertas, e assim por diante.

Há também a questão notória de revistas publicando apenas resultados positivos em vez de negativos (criando um grande incentivo para enganar, uma vez que a punição por fazê-lo é quase inexistente enquanto não estiver apenas inventando os dados). É por estas razões que exigem o pré-registro de pesquisa – explicitamente afirmando o que você vai olhar antecipadamente – reduz as descobertas positivas marcadamente. Se a pesquisa não é replicada porque o sistema está sendo enganado, mais replicações internas (as dos mesmos autores) realmente não ajudam muito quando se trata de prever replicações externas (aquelas realizadas por partes externas). Replicações internas apenas fornecem aos pesquisadores a capacidade de denunciar múltiplas tentativas de trapaça.

Essas duas hipóteses fazem previsões diferentes sobre os dados do projeto de reprodutibilidade acima mencionado: especificamente, a pesquisa que contém replicações internas deve ser mais provável que seja replicada com êxito se a hipótese do moderador desconhecido for precisa. Certamente, seria um estado estranho de uma perspectiva de "este achado é verdadeiro" se múltiplas replicações conceituais não fossem mais prováveis ​​de serem reprodutíveis do que os documentos de estudo único. Seria semelhante ao dizer que os efeitos que foram replicados não são mais susceptíveis de replicar posteriormente do que os efeitos que não o fizeram. Em contrapartida, a hipótese de trapaça (ou, mais educadamente, a hipótese de práticas de pesquisa questionável) não tem nenhum problema com a idéia de que as replicações internas podem revelar-se como replicáveis ​​externamente como documentos de estudo único; trair uma descoberta três vezes não significa que é mais provável que seja verdade do que enganá-lo uma vez.

Flickr/vozach1234
Não é trapaça; É apenas uma "estratégia de teste questionável"
Fonte: Flickr / vozach1234

Isso me leva a um novo artigo de Kunert (2016) que reexaminou alguns dos dados do projeto de reprodutibilidade. Dos 100 trabalhos originais, 44 continham replicações internas: 20 continham apenas uma replicação, 10 foram replicadas duas vezes, 9 foram replicadas 3 vezes e 5 continham mais de três. Estes foram comparados com os 56 artigos que não continham replicações internas para ver quais posteriormente se replicariam melhor (medida pela obtenção de significância estatística). Como se verificou, papéis com replicações internas replicaram externamente cerca de 30% do tempo, enquanto papéis sem replicações internas replicaram externamente cerca de 40% do tempo. Não só os documentos replicados internamente não eram substancialmente melhores, eles eram realmente um pouco pior a esse respeito. Uma conclusão semelhante foi alcançada em relação ao tamanho médio do efeito: os papéis com replicações internas não eram mais prováveis ​​de conter posteriormente um tamanho de efeito maior em relação aos papéis sem tais repetições.

É possível, é claro, que os papéis contendo replicações internas sejam diferentes dos papéis que não contêm tais repetições. Isso significa que pode ser possível que as replicações internas sejam realmente uma coisa boa, mas seus efeitos positivos estão sendo superados por outros fatores negativos. Por exemplo, alguém que propõe uma hipótese particularmente nova pode estar inclinado a incluir mais replicações internas em seu papel do que alguém que estuda um estabelecido; o último pesquisador não precisa de mais repetições em seu artigo para divulgá-lo porque o efeito já foi replicado em outros trabalhos.

Para examinar este ponto, Kunert (2016) utilizou os 7 preditores de reprodutibilidade identificados da Open Science Collaboration – campo de estudo, tipo de efeito, valor P original, tamanho do efeito original, poder de replicação, surpreendência do efeito original e desafio de realizar a replicação – para avaliar se o trabalho replicado internamente diferiu de forma notável da amostra replicada não internamente. Como se verifica, as duas amostras foram bastante semelhantes em todos os fatores, exceto um: campo de estudo. Os efeitos reproduzidos internamente tendem a ser mais frequentes na psicologia social (70%) do que na psicologia cognitiva (54%). Como mencionei anteriormente, papéis de psicologia social tendem a se replicar com menos frequência. No entanto, o efeito moderador desconhecido não foi particularmente bem suportado para qualquer campo quando examinado individualmente.

Em resumo, então, os documentos contendo replicações internas não eram mais prováveis ​​de fazer bem quando se tratava de replicações externas que, na minha opinião, sugerem que algo está indo muito errado no processo em algum lugar. Talvez os pesquisadores estejam fazendo uso de sua liberdade de analisar e coletar dados, conforme julguem oportuno, para entregar as conclusões que desejam ver; talvez os periódicos publicitários preferencialmente sejam publicados nas descobertas de pessoas que tiveram sorte, em relação àqueles que conseguiram isso. Essas possibilidades, é claro, não são mutuamente exclusivas. Agora, suponho que se poderia continuar a fazer um argumento que seja diferente ", os documentos que contêm replicações conceituais são mais propensos a fazer outra coisa diferente, em relação a documentos com apenas um único estudo", o que poderia potencialmente explicar a falta de força fornecida por replicações internas, e o que quer que seja "algo" não pode ser diretamente utilizado pelas variáveis ​​consideradas no artigo atual. Em essência, esse argumento sugere que há moderadores desconhecidos todo o caminho para baixo.

Flickr/ynnil
"… e essa tartaruga está na concha de uma tartaruga ainda maior …"
Fonte: Flickr / ynnil

Embora seja verdade que tal explicação não é descartada pelos resultados atuais, não deve ser tomada como qualquer tipo de posição padrão sobre por que esta pesquisa está falhando em replicar. A explicação dos "pesquisadores estão traindo" me parece um pouco mais plausível nesta fase, já que não há muitas outras explicações óbvias sobre por que os documentos replicados ostensivamente não são melhores na replicação. Como Kunert (2016) coloca claramente:

Este relatório sugere que, sem mudanças generalizadas na ciência psicológica, será difícil distingui-lo de observações informais, anedotas e trabalho de adivinhação.

Isso nos leva à questão do que pode ser feito sobre o problema. Há formas processuais de tentar abordar o problema – como a recomendação de Kunert (2016) para obter periódicos para publicar documentos independentemente dos resultados – mas meu foco tem e continua sendo sobre os aspectos teóricos da publicação. Muitos trabalhos em psicologia são publicados sem necessidade aparente de os pesquisadores explicarem suas descobertas em qualquer sentido significativo; Em vez disso, eles geralmente apenas reafirmam e rotulam suas descobertas, ou eles postulam alguma função biologicamente improvável para o que encontraram (como, "X faz as pessoas se sentir bem", ou "tarefas de autocontrole são drenos metabólicos pesados"). Sem a aplicação séria e consistente da teoria evolutiva à pesquisa psicológica, os efeitos implausíveis continuarão a ser publicados e, posteriormente, não conseguem replicar, porque, de outra forma, é pouco para saber se uma descoberta faz sentido. Em contraste, considero plausível que os efeitos improváveis ​​possam ser mais facilmente identificados – por revisores, leitores e replicadores – se todos estiverem inseridos no mesmo quadro teórico; ainda melhor, os problemas de design podem ser mais facilmente identificados e corrigidos considerando a lógica funcional subjacente, levando a pesquisas futuras produtivas.

Referências: Kunert, R. (2016). Replicações conceituais internas não aumentam o sucesso de replicação independente. Revista do Boletim Psicológico , DOI 10.3758 / s13423-016-1030-9