A vida e os tempos de P

Wikipedia; public domain
Fonte: Wikipedia; domínio público

Totgesagte leben länger. ["Aqueles mortos pronunciados vivem mais", ou no Latim Vulgarista: 'Declaravit iam mortuum vivere'] ~ Origem desconhecido

Espero que os valores p sejam medidas legítimas. Caso contrário, eu não aprendi nada nas estatísticas . ~ Lauren Krueger, estudante de negócios e finanças, Universidade de Maastricht

As estatísticas são sobre probabilidade e nenhum índice de probabilidade único tem visto tanto uso quanto abuso como o chamado valor p (veja aqui para um ensaio anterior). Pouco p expressa a probabilidade de os dados (ou dados mais extremos) assumindo que uma hipótese particular (ou seja, um modelo teórico da realidade) é correta. Muitas vezes, esse modelo teórico é um teórico no sentido de que ele pressupõe que não há nada lá. Você pode dizer, não acredito que você possa distinguir a diferença – da degustação sozinha -, desde que o leite tenha sido adicionado ao chá e ao chá sendo adicionados ao leite. Para dizer que você não pode dizer a diferença é dizer que cada vez que você tenta, você tem uma probabilidade de .5 de estar correto. Se você tiver sucesso em 8 de 10 tentativas, p = .055 com um teste de uma unha. Por convenção, ficamos intrigados com seus sucessos, mas não inferiríamos que você tivesse uma capacidade demonstrável para a ordem de derramar.

P está em toda parte. Seja a avaliação de associações entre variáveis ​​empíricas ou diferenças em médias, medianas, fileiras ou proporções, p fornece uma métrica comum. As estatísticas de teste podem variar (r, b, t, F, qui-quadrado, U ou W), mas p as torna comparáveis. No entanto, muitos estatísticos odeiam o p por causa da má interpretação e uso indevido que todos nós vimos ou por causa do que não é e não pretende ser, a saber, a probabilidade da hipótese dada os dados. Os antigos motivos de mal humor são uma distração porque são uma questão de recepção de P e não da sua natureza. Os últimos são irrelevantes porque p , se poderia falar, não reivindicaria ser igual à sua probabilidade condicional inversa. Claramente, a probabilidade de dados dados a hipótese, p (D | H), não pode pretender ser a probabilidade da hipótese dada os dados, p (H | D). Somente pessoas que não entendem como os condicionais inversos estão relacionados podem fazê-lo, o que nos remete para a questão da ignorância e do uso indevido.

Muitas vezes, o desprezo por p é misturado com ou justificado pelo desprezo pelo teste de hipóteses nulas. A hipótese nula (ou nula) de nenhum efeito é frequentemente retratada como um homem de palha. Nós já sabemos que é falso, de modo que mostrar que é falso, por meio de relatar um baixo valor p, é uma charada que se divide em ciência. Mesmo? Já sabemos que você tem a capacidade de detectar se o chá foi adicionado ao leite ou ao leite ao chá (ou a "habilidade" notável para recuperá-lo)? Hipóteses nulas são configuradas como previsões testáveis ​​quando uma pessoa razoável esperaria que não existisse lá. Então, quando em um conjunto de estudos bem projetado e replicado, p permanece baixo, temos uma prova de probabilidade (probabilística).

Tem havido clamores sobre os horrores de p por um século e, recentemente, está novamente atingindo o tom de febre, em grande parte, então, porque os escandalosos abusos de p chamaram a nossa atenção, e não porque os horrores inerentes ao método foram revelados, seja por matemática inteligente ou auto-da-fé . A quem você se pronuncia para um julgamento autoritário sobre p e seu uso? A Associação Estadística Americana, é claro!

E eis! O ASA subiu para a tarefa e emitiu uma declaração sobre a p . O conselho convocou e convidou especialistas de diferentes escolas de pensamento para oferecer sua avaliação e, finalmente, foi publicado um relatório criterioso e criterioso (Wasserstein & Lazar, 2016). O tenor é que o valor p tem algum valor evidencial, mas que é facilmente interpretado mal e mal utilizado. Deve-se ter cuidado e outras ferramentas estatísticas também devem ser usadas. Isso não é uma condenação dos valores p como o trabalho do diabo. Nem é uma declaração de que existem métodos alternativos que são tão claramente superiores que os testes de significância e o relatório de p podem e devem ser abandonados. Em outras palavras, o relatório ASA é notável no que não diz. Os pesquisadores e seus alunos podem continuar como eles, enquanto tentam ser éticos e conscientes. Nem mais nem menos.

O relatório da ASA é o trabalho de um comitê, refletindo a condensação de uma variedade de opiniões em uma narrativa destinada a minimizar o desacordo em média. Curiosamente (e para o crédito da ASA), 21 comentários são publicados juntamente com o relatório como material complementar. Maio dos escritores parece ter estado envolvido com a preparação do relatório da ASA, de modo que suas avaliações individuais fornecem uma janela interessante sobre a variação de opinião que é agregada no relatório. Aqui estão alguns temas que surgem em todos os comentários individuais:

Na minha leitura, quatro dos comentários (Benjamin & Berger, Carlin, Johnson e Rothman) defendem claramente o abandono do valor p (ou seja, o grupo não-abandonado é a maioria, p = .007, de duas colas). Os outros admitem com raiva que p tem alguns usos, que outros métodos (especialmente cálculos bayesianos) têm problemas iguais ou diferentes, ou que o problema "real" não é um índice estatístico particular, mas o contexto epistemológico mais amplo. Alguns dos comentaristas, mesmo assim, apoiam enfaticamente o uso do valor p, se bem entendido. Aqui estão algumas citações memoráveis, provenientes de 7 dos 21 comentários:

"O que fez o valor p tão útil e bem sucedido na ciência ao longo do século 20, apesar dos equívocos tão bem descritos na declaração? Em algum sentido, oferece uma primeira linha de defesa contra ser enganada pela aleatoriedade, separando o sinal do ruído, porque os modelos que ele requer são mais simples do que qualquer outra ferramenta estatística precisa. " ~ Benjamini

"Às vezes, especialmente quando se utilizam novas tecnologias científicas emergentes, o valor p é o único meio de quantificar a incerteza". ~ Benjamini

"Os valores de P são medidas úteis da extremidade e servem para descrever um conjunto de números de forma semelhante à das pontuações Z e dos intervalos de confiança". ~ Berry

P-values "servem para descrever um conjunto de dados de números e, nesse sentido, são ferramentas úteis." ~ Berry

"Não é uma questão de abandonar os valores de P, é uma questão de abandonar pesquisas precárias". ~ Ionannidis

"Os valores de P continuarão a oferecer informações úteis." ~ Ioannidis

Os valores de P são "um índice para o significado de prova dos dados dentro de um modelo estatístico". ~ Lew

"Os valores de P são uma resposta útil e defensável para a questão do que os dados dizem." ~ Lew

"É incorreto reivindicar um valor p é" inválido "por não corresponder uma probabilidade posterior com base em uma ou outra distribuição prévia." ~ Little

"Os valores de P devem ser mantidos por um papel limitado como parte da maquinaria das abordagens estatísticas de erro". ~ Senn

"A ciência progride em parte descartando possíveis explicações de dados. Os valores de p ajudam a avaliar se uma determinada explicação é adequada. " ~ Stark

Mas . . .

O abuso e o abuso continuam a ser um problema. Ao googlear "o valor p", um ensaio de Deborah Rumsey entra em primeiro lugar. Escrevendo para dummies.com, Deb declara que " um pequeno valor de p (tipicamente ≤ 0,05) indica fortes evidências contra a hipótese nula, então você rejeita a hipótese nula ." Ela nos pede para engolir seu argumento com um exemplo gustativo, convidando-nos para imaginar que " uma pizzaria afirma que seus prazos de entrega são de 30 minutos ou menos em média, mas você acha que é mais do que isso. Você faz um teste de hipótese porque acredita na hipótese nula, Ho, que o tempo médio de entrega é de 30 minutos no máximo, está incorreto. Sua hipótese alternativa (Ha) é que o tempo médio é maior que 30 minutos. Você aleatoriamente amostras alguns tempos de entrega e executa os dados através do teste de hipóteses, e seu valor de p é 0,001, que é muito inferior a 0,05. "

E, para ter certeza de que você entende, declara que " Em termos reais, há uma probabilidade de 0,001 que você rejeitará erroneamente a alegação do lugar da pizza de que seu tempo de entrega é menor ou igual a 30 minutos ".

Foi só assim. O ASA tem muito trabalho a fazer.

Wasserstein, RL, & Lazar, NA (2016). A declaração da ASA sobre os valores p: Contexto, processo e propósito. The American Statistician, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

Os comentários estão aqui