Replicações impuras

A replicação é a espinha dorsal da ciência real. Embora as ciências físicas, como a física e a química, conheçam há muito tempo o valor da replicação e a praticaram, os psicólogos apenas criaram recentemente essa questão. Antes, os pesquisadores conheciam o "boca-a-boca" cujos achados eram reprodutíveis e não eram. Por conseguinte, é louvável que esta questão importante venha à tona.

Nos poucos anos depois de levar a sério a replicação, tem havido muito progresso. Por exemplo, as primeiras replicações publicadas (e principalmente falhadas) foram estudos únicos, enquanto os recentes esforços colaborativos relataram estudos de experiências múltiplas para torná-los mais representativos porque uma única experiência de replicação falhou pode ter feito isso por acaso e, portanto, está vazia.

Alguns dias atrás, uma nova falha de replicação foi publicada, bem como uma resposta do primeiro autor do estudo original, que levanta questões sobre o valor dos estudos de replicação (veja o relatório e a resposta de Strack aqui).

O estudo do lápis e sua replicação

Flickr/CC 2.0
Fonte: Flickr / CC 2.0

No entanto, os problemas remanescentes que têm a ver com uma falta de sofisticação teórica podem ser exemplificados pela replicação de um experimento sobre feedback corporativo de expressão emocional em julgamentos afetivos.

Nesta experiência de Fritz Strack, Leonard Martin e Sabine Stepper, os participantes devem segurar uma caneta em uma das duas posições, entre os dentes (lado esquerdo da imagem) ou entre os lábios (à direita).

Enquanto segura a caneta entre os dentes, os músculos são ativos relacionados ao efeito positivo, segurando a caneta entre os labios, ativa os músculos relacionados a sentimentos negativos. A vantagem deste procedimento é que os participantes não percebem que eles estão sorrindo ou amassando. Os participantes tiveram que avaliar a diversão de Gary Larson The Far Side cartoons.

Strack e colegas descobriram que os participantes que seguravam o lápis entre os dentes e, portanto, sorriam, classificaram os desenhos animados como mais divertidos do que os participantes que seguravam o lápis entre os lábios, o que os fazia beicinho. Esta descoberta fornece suporte a uma teoria de emoção facial de emoção, na medida em que mostrou que a simulação de uma expressão emocional no seu rosto faz você sentir a emoção. O estudo tornou-se um clássico de citação e há alguns anos apareceu na primeira página da Ciência .

Um grupo de pesquisadores iniciou uma grande tentativa de replicação. Dezessete laboratórios diferentes repetiram esse experimento e analisaram se poderiam reproduzir o efeito. O veredicto era claro: não podiam. Nenhuma das experiências atingiu o tamanho do efeito que o estudo original teve, e, em média, o efeito foi próximo de zero. No Twitter, um pesquisador observou: "Outra descoberta clássica de psicologia social mora o pó".

A polêmica no Twitter levou-me a responder, e uma discussão foi tão boa quanto possível quando seu argumento não pode exceder 140 caracteres. Como eu preciso de mais espaço para fazer o argumento, eu decidi escrever essa postagem no blog, principalmente porque este e outros estudos sob escrutínio são relevantes para o sentimento crítico.

Eu vou me concentrar no impacto teórico das falhas de replicação e como lidar com possíveis impurezas que ameaçam a validade de um estudo de replicação.

A questão é, esse efeito clássico realmente "morda o pó"? Em sua resposta, Fritz Strack listou vários pontos que tornam a replica duvidosa.

Por exemplo, 14 dos 17 estudos foram feitos com estudantes de graduação, embora o estudo seja amplamente citado em livros de texto precisamente para esse público. Em contraste com os alunos que participaram do estudo de Strack para quem era impossível conhecer a descoberta, os alunos podem ter lido sobre o estudo, mesmo que possivelmente não se lembrassem quando participaram do experimento.

De fato, os 14 estudos realizados com alunos mostraram um efeito nulo enquanto os três estudos com outros participantes mostraram um efeito geral na direção do estudo original. Além disso, uma câmera foi dirigida aos participantes para monitorar sua expressão facial. Pesquisas mostraram que apontar uma câmera para pessoas ou assisti-las por outros meios altera seu pensamento e comportamento; Por que não os seus julgamentos da diversão dos desenhos animados? Como o efeito do lápis é sutil, pequenas "impurezas" na experiência podem deixar o efeito.

Quando se trata de impurezas, acho que os psicólogos podem se beneficiar do pensamento científico em química. O grande problema que os químicos têm é a pureza de suas substâncias. Mesmo pequenas impurezas podem evitar reações ou alterar os resultados. O principal que os químicos muitas vezes têm que fazer é purificar suas substâncias para garantir o sucesso de suas experiências.

O trabalho dos pesquisadores psicológicos é ainda mais difícil porque eles não conduzem suas pesquisas em sistemas fechados com condições padrão claramente definidas. Os sistemas em psicologia são resultados abertos e experimentais suscetíveis a efeitos de contexto sutis.

Isso significa que mudanças minúsculas podem mudar um efeito, fato reconhecido por pesquisadores de replicação. Por exemplo, os participantes de uma cultura diferente podem interpretar as instruções de forma diferente e, portanto, a experiência pode produzir resultados diferentes.

Não é de admirar que as falhas na replicação no grande projeto Open Science Framework tenham sido relacionadas com o quanto um tema dependia da cultura. O efeito mais específico da cultura foi, pior, suas chances de ser replicado no estudo de ciência aberta (ver Van Bavela et al, 2016).

O estudo do lápis é parte de um programa de pesquisa degenerativa?

Voltemos ao estudo do lápis. Strack forneceu alguns argumentos que suscitam alguma dúvida razoável sobre a "pureza" dos estudos de replicação. Alguns psicólogos argumentaram que isso é "SNARKing – nitpicking especioso depois que os resultados são conhecidos". Outro comentarista significava: "Nós chamamos isso" criticando depois que os resultados são conhecidos ". Lakatos o chama de linha de pesquisa degenerativa.

Esses comentadores afirmam que, se você tentar replicar um efeito e você não conseguir, algumas explicações post hoc não ajudam. Primeiro, você sempre pode encontrar algumas desculpas por que um experimento não funcionou. Em segundo lugar, e mais importante, um efeito não parece robusto quando mudanças sutis removem o efeito. Os comentaristas no Twitter citaram a Lakatos que tal linha de pesquisa está no retiro, é degenerativa.

O uso da linha de pesquisa degenerativa de Lakatos é equivocada no caso de falhas de replicação. Lakatos não pensou em falhas de replicação, mas em novas experiências que contradizem uma teoria. Para apresentar explicações para defender sua teoria – muitas vezes sob a forma de suposições auxiliares que tornam sua teoria mais complicada – é improdutiva e indica que seu programa de pesquisa está em declínio.

No entanto, isso não é o que aconteceu com a teoria do feedback facial que foi apoiada pelo experimento de Strack. Ninguém apresentou dados que contradizem a teoria do feedback facial. Os autores do estudo de replicação simplesmente não conseguiram reproduzir os resultados de um dos estudos de mostra que apoiavam a teoria. No entanto, existem outras experiências que apoiam a teoria do feedback facial. A falha em replicar um estudo – mesmo que seja o mais conhecido – não muda muito quando se trata da teoria. Nenhum sinal de um programa de pesquisa degenerativo.

Por que a falha de replicação não ameaça a teoria do feedback facial

Há outra distinção que os psicólogos devem prestar atenção quando falam sobre falhas de replicação. Vamos assumir que você está estudando uma intervenção para tornar as pessoas felizes através do feedback facial, por exemplo, segurando uma caneta entre os dentes. Você publica um estudo e recomenda essa intervenção para uso nas escolas, no trabalho e em casa. Você faz o argumento universal de que esta intervenção será efetiva na maioria das circunstâncias.

Venha 17 replicadores que não conseguem reproduzir os resultados. Como você fez um argumento universal, a falha em replicar é um golpe mortal porque não existe um efeito global e robusto. Mesmo replicar o efeito com um tamanho de efeito menor prejudicaria a relevância do estudo original se ele fizesse a reivindicação ser um efeito universal.

No entanto, não é isso que Strack e seus colegas tinham em mente. Eles nunca reivindicaram a universalidade do efeito, mas fizeram o argumento existencial de que existem instâncias da experiência dos estados afetivos através do feedback facial.

Venha 17 replicadores que não conseguem reproduzir os resultados. Como Strack e colegas fizeram um argumento existencial, uma falha na repetição ameaça a confiabilidade do estudo e a validade da teoria (se esse fosse o único estudo para apoiá-lo) somente quando não houver nenhuma explicação para a razão da falha no estudo de replicação.

Isso é semelhante aos químicos que buscam impurezas em seu experimento antes de duvidar que possam replicar um resultado. Tal discussão não tem nada a ver com programas de pesquisa de nitrificação e degenerativos, mas com um discurso científico para encontrar o método que funciona, se houver.

Como vimos, existem duas explicações que levantam dúvidas quanto à validade do estudo de replicação, do corpo estudantil e da câmera na frente do rosto dos participantes.

A falha de replicação é informativa porque mostra que esse é um efeito sutil – tornando explícito um fato que os integrantes sabiam o tempo todo, e isso é uma coisa boa.

No entanto, a falha em replicar este experimento não ameaça a teoria, pelas razões acima descritas. Deve ser levado em consideração que provavelmente é muito mais fácil obter uma falha de replicação do que um efeito original estável que geralmente é obtido depois de muitos testes-piloto e ajustes finos.

Finalmente, encontrar um efeito é uma boa notícia para um argumento existencial, mesmo que o tamanho do efeito seja muito mais fraco do que o estudo original. Do ponto de vista de uma teoria, os tamanhos de efeitos são apenas informativos quando os cientistas fazem um argumento universal ou quando querem derivar implicações práticas de um estudo.

Enquanto o argumento pertence à mera existência de um mecanismo ou efeito, os tamanhos de efeitos não são importantes.

Conclusão

A falha de replicação apenas ameaça uma teoria (1) quando este é o único estudo que apóia a teoria; (2) se fizer uma reivindicação universal. Replicações atuais, muitas vezes, escolhem um estudo de muitos que apoiam uma teoria, e eles escolhem estudos que suportam um argumento existencial.

Muitas falhas de replicação são apenas – falhas de replicação de estudos individuais. Eles não têm muito impacto na teoria, e a discussão sobre as impurezas que ameaçaram a validade de um estudo de replicação não deve ser tomada como desculpas fracas, mas como ponto de partida para tentativas de replicação novas e melhores.

A mensagem de levar a casa é que os psicólogos devem distinguir entre a replicação de estudos que afirmam mostrar um efeito universal com implicações práticas e estudos que tornam o argumento existencial sobre um determinado mecanismo.

A maioria dos estudos experimentais sobre afecções, iniciação ou incorporação que não foram replicadas são deste último tipo. Como a teoria é principalmente apoiada por outras evidências, a falta de reproduzir seus resultados não tem muita relevância para a teoria que esses estudos deveriam suportar.

A publicação do blog despertou muito debate nas mídias sociais. Veja discussão no Facebook aqui (Psychological Methods Discussion Group) e aqui (PsychMAP).

Para descobrir que a reprodutibilidade é sensível ao contexto:

Van Bavela, JJ, Mende-Siedleckia, P, J. Bradya, W. e Reinero, DA (2016). Sensibilidade contextual na reprodutibilidade científica. PNAS, 113, 6454-6459.

A hipótese de feedback facial é descrita no Capítulo 5 de:

Reber, R. (2016). Sentimento crítico. Como usar sentimentos estrategicamente. Cambridge: Cambridge University Press.

Mais referências podem ser encontradas nos links ou referências acima.

Crédito da imagem: Figura disponível em http://tinyurl.com/zm7p9l7 sob licença CC
https://creativecommons.org/licenses/by/2.0/.