Julgamento sob incerteza: estatísticas e preconceitos

J. Krueger
Fonte: J. Krueger

Ainda faltam algumas frequências. ~ Joe Austerweil, enquanto meditava um problema "Bayesiano"

O teste de significância é visto por muitos de seus praticantes como o paraíso da objetividade, o coração do método científico e o Santo Graal levando a descobertas que definem a carreira. Os dados são reunidos, uma estatística de teste é calculada, e a probabilidade de uma estatística pelo menos essa grande é encontrada. Se essa probabilidade for inferior a 0,05, a hipótese nula é rejeitada. Algo mais, não nada , é suposto estar acontecendo. Normalmente, não se pensa que "nada de nada" seja qualquer tratamento que separe os sujeitos experimentais dos controles. O método é objetivo no sentido de que todos os que conhecem a broca obtêm o mesmo resultado.

'Objetivo' não significa 'válido'. A validade dos métodos de teste de significados foi questionada por um século (uma crítica inicial pode ser encontrada no Livro do Trabalho , veja a nota do trabalho). No entanto, esses métodos prevalecem (pelo menos por enquanto, o partido pode acabar em amanha). Por quê? Gerd Gigerenzer (em algum lugar, em algum momento) observou que o uso do valor p, ou seja, usando a probabilidade dos dados sob a hipótese nula, p (D | H), inferir o inverso, ou seja, a probabilidade da hipótese dada O dado, p (H | D), é um exemplo de julgamento pela heurística de representatividade . Ele não elaborou, tanto quanto me lembro, então vou aqui.

Lembre-se (ou procure) que p (H | D) = p (D | H) * p (H) / pD). Os dados falam sobre a hipótese. Seu efeito (probabilidade) deve ser multiplicado pela proporção das taxas base, ou seja, a probabilidade anterior da hipótese dividida pela probabilidade geral de encontrar esse tipo de dados (sob qualquer hipótese). O Reverendo Bayes diz que multiplicarás e dividirás. O teste de significância, no entanto, a grande sedutora, tenta que o pesquisador aumente diretamente de p (D | H) para p (H | D), e as taxas de taxa básica sejam condenadas. Essa diferença entre usar e ignorar a informação de fundo é o que distingue o pensamento de perceber no trabalho de Tversky e Kahneman e em grande parte do que eles inspiraram.

A heurística de representatividade tornou-se famosa por sua negligência de definição, e não por destituição, de taxas base (priores). Vamos ouvir Tversky & Kahneman (TK; 1974): "Muitas das questões probabilísticas com as quais as pessoas estão preocupadas [são do tipo que pergunta] qual é a probabilidade de o objeto A pertencer à classe B? "A refere-se aos achados do estudo, e B é uma potencial realidade subjacente, conforme descrito pela hipótese. Então, "ao responder a tais perguntas, as pessoas geralmente dependem da heurística de representatividade, na qual as probabilidades são avaliadas pelo grau em que A é representativo de B, ou seja, pelo grau em que A se assemelha a B."

TK revisa 6 características de julgamento por representatividade. Vamos ver se eles se aplicam ao teste de significância e sua prática.

[1] Insensibilidade à probabilidade anterior de resultados . Isso se aplica? Sim. Para uma falha. O teste de significância esvazia explicitamente a probabilidade anterior da hipótese nula, ou qualquer outra hipótese. Os pesquisadores podem contemplar silenciosamente o risco de seu projeto (ou seja, as chances de encontrar algo em oposição a nada), mas eles não são convidados a formalizar essas contemplações e deixá-los afetar sua inferência sobre a hipótese após terem coletado a evidência. Nesse sentido, o teste de significância é ainda mais robusto e heurístico do que o pensamento representativo de variedades de jardim ( er , percebendo) que você e eu nos conformamos quando nos perguntamos se o namorado de nossa filha pertence à categoria de "empurrões". Ele não se comporta como um idiota, nem parece um idiota, ergo . . . e ignoramos o tamanho da categoria de idiotas, ou seja, ignoramos quão provável é a priori que o jovem é um idiota. Aliás, é um pouco estranho que os TK introduzam a heurística de representatividade em termos de suas características definidoras e seus resultados. Bayes negligencia (mais precisamente "negligência na taxa básica") parece usar ambos os chapéus.

[2] Insensibilidade ao tamanho das amostras . O teste de significância é sensível ao tamanho da amostra, então, nesse sentido, o método não se assemelha à heurística. Quanto maior a amostra, mais provável é descobrir um efeito, se houver. No entanto, como nota TK, muitos praticantes de testes de significância mostram esse tipo de insensibilidade. É como se eles pensassem sobre um tipo particular de heurística de representatividade usando outro.

[3] Equívocos sobre o acaso . Novamente, este é um problema de pessoas e não de procedimento. As pessoas têm poucas intuições sobre o acaso, o que é uma das razões da sua vulnerabilidade de ser explorado por casinos, vendedores de loteria e vendedoras de seguros. O teste de significância tem hipóteses sobre o acaso construído. Eles ajudam a produzir o valor p.

[4] Insensibilidade à previsibilidade. Aqui, os TK significam que os julgamentos das pessoas são influenciados por boas histórias. Eles predizem o valor (algo positivo ou algo negativo) do valor da história, ignorando a confiabilidade da história, por exemplo, se ela é baseada na opinião de especialistas ou boatos. Testes de significância – e eu estou saindo em um membro aqui – tem o que parece ser um recurso semelhante (representativo como ele). As inferências que sugere sobre a verdade ou a falsidade da hipótese nula (ou seja, as previsões) são baseadas somente nos dados, e não em quais outras hipóteses estão em jogo. Pode acontecer que o valor de p sob o nulo seja baixo, mas que o valor de p sob uma hipótese alternativa seja muito mais baixo ainda, caso em que um Bayesiano argumentaria que há evidências relativas em favor da hipótese nula.

[5] A ilusão de validade . Os TK argumentam que a dependência da representatividade promove um falso senso de validade. Isso deveria ser assim se as pessoas dependerem de uma heurística que seja menos do que perfeitamente válida. Se não tivessem nenhuma ilusão de validade, eles não dependeriam da heurística. De qualquer forma, o teste de significância – como observado na primeira frase deste ensaio – seduz os pesquisadores a serem iludidos da mesma maneira. Pensando que o teste de significância é a ferramenta principal para a descoberta científica, eles só podem acabar com confiança excessiva.

[6] Equívocos de regressão . Essa é boa. Por último, mas não perdido. Procurando por gênio e encontrando pouco, regressão de Galton (Sir Francis) "descoberta" (para a média). Os filhos de homens destacados simplesmente não eram tão notáveis. Hoje, conhecemos a regressão como uma característica essencial de um mundo probabilístico. No entanto, pensando de forma representativa, prevemos A de B como se a correlação entre os dois casos fosse perfeita mesmo quando não fosse. No contexto do teste de significância, a regressão se inicia quando os pesquisadores assumem que as descobertas significativas serão replicadas. Isso está relacionado aos pontos [2] e [5], e é principalmente um problema dos usuários dos testes e apenas parcialmente um problema do valor p; P fala com sua própria replicabilidade, mas com uma voz muito baixa.

O resto da história é esta: os TK entram na seção de discussão há muito esquecida de seu famoso artigo "Não é surpreendente que as heurísticas úteis, como a representatividade [. . .] são mantidos, embora ocasionalmente levem a erros de predição e estimativa. "Lá está: os TK alegaram que essas heurísticas são úteis e que não devemos nos surpreender que as pessoas as utilizem. Se o teste de significância é realmente – como eu tentei mostrar – uma versão formalizada da heurística de representatividade, ainda pode haver ainda mais vida nela.

E o que se entende por "útil?" Uma heurística é útil se produzir julgamentos e escolhas suficientemente precisas a baixo custo. O quão bem o teste de significância eo seu valor p fazem nesse sentido ainda estão sendo debatidos. Depois de algum trabalho de simulação, estou começando a pensar que o teste de significância não é tão ruim quanto está quebrado.

Nota de trabalho. Jó, homem firme da lenda, recusou-se a rejeitar a hipótese de que Deus era bom, apesar da evidência esmagadora em contrário.

Em eigener Sache : eu registro todas as minhas postagens sob a rubrica "vida social" e também sob outra. Uma vez que não há uma rubrica de "estatísticas", você pode encontrar esta postagem sob "espiritualidade". Bom trabalho, emprego.

Tversky, A., & Kahneman, D. (1974). Julgamento sob incerteza: Heurística e preconceitos, Science, 185 , 1124-1131.

Associação solta : se você pode estômago outra, vamos dizer associação "remota", e quanto a isso: Críticos do teste de significância garantem que o método é tendencioso contra a hipótese nula, ou seja, a idéia de que "não há nada" é aceita com muita facilidade . Isso significa que a Hipótese Nula sofre de " sensibilidade à rejeição ?"

Esta publicação foi escrita por fantasma por Ovum Capu t, Ph.D.