Count The Hits; Não as senhoras

Em vários pontos de nossas vidas, todos lemos ou nos dissemos anedotas sobre como alguém transformou um pouco de sua vida. Algumas dessas (ou pelo menos variações delas) provavelmente soam familiares: "Cortei o pão da minha dieta e, de repente, me senti muito melhor"; "Amy fez uma fortuna trabalhando em casa vendendo pastilhas dietéticas on-line"; "Depois que os médicos não conseguiram descobrir o que estava errado comigo, comecei a beber este chá e minha infecção de repente se aclarou". O ponto inteiro de tais histórias é tentar desenhar um link casual, nesses casos: (1) comer pão faz você se sentir doente, (2) vender pílulas dietéticas é uma boa maneira de ganhar dinheiro e (3) o chá é útil para combater infecções. Algumas ou todas essas afirmações podem ser verdadeiras, mas o problema real com estas histórias é a escassez de dados em que se baseiam. Se você quisesse ter mais certeza sobre essas declarações, você quer mais informações. Certo; você pode ter se sentido melhor depois de beber esse chá, e as outras 10 pessoas que bebiam chá semelhante e não viram resultados? Como sobre todas as outras pessoas que vendem pílulas dietéticas que estavam no buraco financeiro do primeiro dia e nunca se arrastaram para fora porque é realmente uma farsa? Se você deseja se aproximar da compreensão do valor de verdade dessas declarações, você deve considerar os dados como um todo; ambas histórias de sucesso e histórias de fracasso. No entanto, as histórias de alguém que não se enriquece com a venda de pílulas dietéticas não são tão agitadoras e, portanto, não vêem a luz do dia; pelo menos não inicialmente. Esta faceta de anedotas foi feita por The Onion há vários anos (e Clickhole teve sua própria tomada mais recentemente).

Flickr/Lloyd Morgan
"No começo ele falhou, mas com algum pensamento positivo ele continuou a falhar repetidas vezes"
Fonte: Flickr / Lloyd Morgan

Essas anedotas muitas vezes tentam e lançam os holofotes em casos bem sucedidos (hits) ao ignorar os mal sucedidos (falhas), resultando em uma imagem tendenciosa de como as coisas vão funcionar. Eles não nos aproximam muito da verdade. A maioria das pessoas que criam e consomem pesquisa em psicologia gostaria de pensar que os psicólogos vão além desse tipo de anedotas e geram informações úteis sobre como a mente funciona, mas tem havido muitas preocupações levantadas ultimamente sobre exatamente quanto elas vão em média, em grande parte devido aos resultados do projeto de reprodutibilidade. Houve inúmeras questões levantadas sobre a forma como a pesquisa de psicologia é conduzida: seja sob a forma de advocacia para posições políticas e sociais particulares (que distorcem projetos experimentais e interpretações estatísticas) ou as formas seletivas pelas quais os dados são manipulados ou relatados para chamar a atenção para dados bem-sucedidos sem reconhecer predições falhadas. O resultado foi uma série de falsos positivos e realistas exagerados surgindo na literatura.

Embora essas preocupações sejam justificadas, é difícil quantificar a extensão dos problemas. Afinal, muito poucos pesquisadores vão sair e dizer que manipularam suas experiências ou dados para encontrar os resultados que queriam porque (a) só prejudicaria suas carreiras e (b) em alguns casos, eles nem sabiam que eles estão fazendo isso, ou o que eles estão fazendo é errado. Além disso, porque a maioria das pesquisas psicológicas não são pré-registradas e as descobertas nulas geralmente não são publicadas, descobrir o que os pesquisadores esperavam encontrar (mas não) se torna um empreendimento difícil apenas pela leitura da literatura. Felizmente, um novo artigo de Franco et al (2016) traz alguns dados sobre a questão de quanto a subnotificação está acontecendo. Embora esses dados não sejam a última palavra sobre o assunto por qualquer meio (em grande parte devido ao seu pequeno tamanho de amostra), eles fornecem alguns dos primeiros passos na direção certa.

Franco et al (2016) relatam um grupo de experiências de psicologia cujos questionários e dados foram disponibilizados publicamente. Especificamente, estes provêm das Experiências de compartilhamento de tempo para as Ciências Sociais (TESS), um programa NSF em que experimentos em linha são incorporados em pesquisas de população representativas a nível nacional. Os pesquisadores que fazem uso de TESS enfrentam limites rigorosos sobre o número de perguntas que podem fazer, dizem-nos, o que significa que deveríamos esperar que eles restringissem suas perguntas aos mais teoricamente significativos. Em outras palavras, podemos estar bastante confiantes de que os pesquisadores tiveram algumas previsões específicas que esperavam testar para cada condição experimental e medida de resultado, e que essas previsões foram feitas antes de realmente obter os dados. Franco et al (2016) foram capazes de acompanhar os estudos TESS até as eventuais versões publicadas dos artigos para ver quais manipulações experimentais e resultados foram e não foram relatados. Isso proporcionou aos autores um conjunto de 32 experiências de psicologia semi-pré-registradas para examinar os viés de relatórios.

Flickr/Pat Kight
Uma pequena amostra que generarei imprudentemente para toda a pesquisa de psicologia
Fonte: Flickr / Pat Kight

O primeiro passo foi comparar o número de condições experimentais e variáveis ​​de resultado que estavam presentes nos estudos TESS para o número que acabou por aparecer em manuscritos publicados (ou seja, os autores relatam o que eles fizeram e o que mediram?). No geral, 41% dos estudos TESS não relataram pelo menos uma de suas condições experimentais; enquanto houve uma média de 2,5 condições experimentais nos estudos, os artigos publicados apenas mencionaram uma média de 1,8. Além disso, 72% dos trabalhos não relataram todas as suas variáveis ​​de resultados; enquanto havia uma média de 15,4 variáveis ​​de resultado nos questionários, os relatórios publicados apenas mencionavam 10.4 Tomados em conjunto, apenas cerca de 1 em 4 dos experimentos relataram tudo o que eles fizeram e o que eles mediram. Sem surpresa, esse padrão se estendeu ao tamanho dos efeitos reportados também. Em termos de significância estatística, o valor médio medido de p foi significativo (0,02), enquanto o valor p médio não relatado não foi (.32); Dois terços dos testes relatados foram significativos, enquanto que apenas um passo dos testes não relatados foram. Finalmente, os tamanhos de efeitos publicados foram aproximadamente duas vezes maiores do que os não declarados.

Em conjunto, o padrão que emergiu é que a pesquisa de psicologia tende a subestimar manipulações experimentais erradas, medidas que não diminuíram e menores efeitos. Isso não deve ser uma surpresa para quase qualquer um que passou muito tempo em torno de pesquisadores de psicologia ou os próprios pesquisadores que tentaram publicar descobertas nulas (ou, de fato, tentaram publicar quase qualquer coisa). Os dados são muitas vezes confusos e não cooperativos, e as pessoas estão menos interessadas em ler sobre as coisas que não funcionaram (a menos que sejam colocadas nos contextos adequados, onde as falhas em encontrar efeitos podem realmente ser consideradas significativas, como quando você " está tentando fornecer provas contra uma teoria). No entanto, o resultado de tais relatórios seletivos sobre o que parece ser uma escala bastante grande é que a confiabilidade geral da pesquisa de psicologia relatada diminui cada vez mais, um falso positivo por vez.

Então, o que pode ser feito sobre esse problema? Uma sugestão que muitas vezes é lançada é a perspectiva de que os pesquisadores devem registrar seu trabalho com antecedência, deixando claro quais análises estarão conduzindo e quais as previsões que eles fizeram. Este foi (tipo) o caso nos dados atuais, e Franco et al (2016) endossam essa opção. Ele permite que as pessoas avaliem a pesquisa como mais de um todo do que apenas contando com as contas publicadas. Embora essa seja uma boa sugestão, só vai até agora melhorar o estado da literatura. Especificamente, não ajuda o problema das revistas a não publicar resultados nulos em primeiro lugar, nem tampouco desautoriza os pesquisadores de fazer análises pós-hoc de seus dados, além de ativar falsos positivos adicionais. O que é talvez uma maneira mais ambiciosa de aliviar esses problemas que vem à mente seria mudar coletivamente a forma como os periódicos aceitam documentos para publicação. Neste sistema alternativo, os pesquisadores apresentariam um esboço de seu artigo para um periódico antes da realização da pesquisa, deixando claro (a) quais serão suas manipulações, (b) quais serão suas medidas de resultado e (c) quais análises estatísticas eles irão realizar. Então, e isso é importante, antes que o pesquisador ou os periódicos saibam quais serão os resultados , a decisão será feita para publicar o documento ou não. Isso permitiria que os resultados nulos se abrissem para os periódicos mainstream, ao mesmo tempo em que permitiram que os pesquisadores construíssem seus próprios currículos se as coisas não funcionassem bem. Em essência, remove alguns dos incentivos para que os pesquisadores traquem estatisticamente. A avaliação das revistas será baseada em não se os resultados interessantes surgiram, mas sim sobre se uma questão de pesquisa suficientemente importante foi feita.

Flickr/Scott
O que é bom, considerando a frequência com que os resultados reais e fortes parecem aparecer
Fonte: Flickr / Scott

Há, porém, algumas desvantagens para essa sugestão. Por um lado, o plano levaria algum tempo para promulgar, mesmo que todos estivessem a bordo. Os jornais precisariam aceitar um documento para publicação semanas ou meses antes do próprio documento estar sendo concluído. Isso representaria algumas complicações adicionais para os periódicos, na medida em que os pesquisadores ocasionalmente não conseguiriam concluir a pesquisa, de maneira oportuna, ou enviar papéis sub-par ainda não dignos de impressão, deixando possíveis lacunas de publicação. Além disso, às vezes isso significa que uma questão de um jornal sai sem incluir grandes avanços no campo da pesquisa psicológica (ninguém conseguiu encontrar esse tempo), o que poderia afetar negativamente o fator de impacto das revistas em questão. Na verdade, essa última parte provavelmente é o maior impedimento para fazer grandes revisões para o sistema de publicação que está atualmente no lugar: a maioria das pesquisas de psicologia provavelmente não vai funcionar bem, e isso provavelmente significará menos pessoas interessadas em ler e citar isto. Embora seja possível, suponho, que as descobertas nulas seriam citadas a taxas semelhantes às positivas, que resta ser visto e, na ausência dessa informação, não prevejo que os periódicos estejam terrivelmente interessados ​​em mudar suas políticas e tomar esse risco.

Referências: Franco, A., Malhotra, N., & Simonovits, G. (2016). Underreporting em experimentos de psicologia: evidência de um registro de estudo. Ciências da psicologia social e da personalidade, 7 , 8-12.