A Estatística de Resultados Impossíveis

supernova

Mulder

: Você acredita na existência de extraterrestres?

Scully : Logicamente eu teria que dizer não. Dadas as distâncias necessárias para viajar do alcance do espaço, os requisitos de energia excederão as capacidades de uma nave espacial …

Mulder : sabedoria convencional …

Eu escrevi anteriormente sobre uma palestra dada pelo astrônomo chileno Mario Hamuy. Ao estudar supernovas muito remotas, Hamuy e colegas encontraram evidências que levaram à conclusão de que o universo está se expandindo com velocidade acelerada. Antes de sua descoberta, quase ninguém achou isso possível. Várias hipóteses quanto à taxa de desaceleração estavam em jogo, e a idéia de que a velocidade de expansão é constante foi a mais extrema e fantasiosa. Os dados de Hamuy foram mais extremos do que a hipótese mais extrema permitiria, e ainda assim, esses dados são agora amplamente aceitos, levando a uma nova hipótese após o fato: a taxa de expansão está se acelerando. Por que isso continua a ser explicado (energia escura, alguém?).

Hamuy mostrou um gráfico com várias linhas, cada uma representando uma velocidade particular de expansão. A linha mais íngreme não assumiu nenhuma desaceleração. Quando ele mostrou dados das supernovas distantes, a expectativa era que eles caíssem como pontos em uma dessas linhas, confirmando assim a (mudança) taxa de expansão. A revelação chocante era que os pontos ficavam acima da linha mais íngreme, e a medida era suficientemente precisa para manter a linha mais íntima fora dos intervalos de confiança desenhados em torno dos pontos. Você tira a foto? Por meio de testes de significância estatística, Hamuy (e, assim, o resto de nós) foram forçados a concluir que os dados da supernova eram improváveis, mesmo sob a hipótese mais próxima. Se (mesmo) essa hipótese tivesse que ser rejeitada (as hipóteses de desaceleração foram rejeitadas a fortiori ), uma nova hipótese teve que ser configurada – e com velocidade intergaláctica. Daí o retorno da constante cosmológica de Einstein e a chegada da energia escura (anti-gravidade).

Fui persuadido pelos dados e as conclusões de Hamuy (ainda estou). Parecia um forte uso do teste de hipóteses. Hamuy e sua equipe estabeleceram hipóteses precisas, e os dados os expulsaram. Se alguém não fez testes de hipóteses com esses dados, quais alternativas existem? Uma alternativa, que mencionaremos apenas brevemente, é a estimativa de tamanho de parâmetro ou efeito . Os defensores desta abordagem saem e medem, calculam médias (ou outros tipos de estatísticas agregadas) e margens de erro com base em informações sobre o número e a dispersão das observações. Eles então traçam os meios e os intervalos de confiança, assim como Hamuy fez para representar a distância das supernovas. O problema com a abordagem de estimativa pura é que é atheoretical. Nenhuma hipótese é rejeitada ou corroborada. Você olha para os pontos e diz "É o que é". Você pode, é claro, estimar tendências centrais e observar se os intervalos de confiança incluem um valor teórico. Se não o fizerem, você pode educadamente ignorar esse valor (e a teoria que o previu). Obviamente, esta estratégia tem o cheiro rançoso de tentar ter as duas formas: rejeitar uma hipótese, enquanto afirma estar olhando apenas o que é . O teste de significância – deve ser admitido – é menos hipócrita sobre essa questão. Ele nos ensina o que não é.

A outra alternativa ao teste de hipóteses clássico é a avaliação da hipótese Bayesiana. Sou simpatizante da causa bayesiana, mas vejo limitações. Os dados de Hamuy mostram uma dessas limitações, mas permitam-me ilustrar minha preocupação com uma versão estilizada dos dados não-maciços que encontrei recentemente neste lado da galáxia.

Imagine um jogo experimental, no qual você pode querer cooperar com uma determinada probabilidade. Existem duas probabilidades específicas que podem ser derivadas de premissas padrão teóricas de jogo. Um é 0,5 e o outro é 0,75. Por que isso é tão irrelevante aqui. Agora, nós cobramos julgamentos de probabilidade de um grupo de entrevistados e a média deles. Digamos que a média é .8 e o erro padrão é .02. Com o teste de significância, observamos que a média empírica é maior do que o valor teórico mais próximo de 0,75, t = 2,5, p = 0,13. Observe a analogia com o caso de Hamuy. Os dados empíricos são tão extremos que nos levam a rejeitar até mesmo a previsão teórica mais próxima. Nós nem sequer precisamos testar a média empírica de .8 contra o valor teórico mais remoto de .5.

Ou nós? No mundo bayesiano, avaliamos os dados à luz de múltiplas (pelo menos duas) hipóteses mutuamente exclusivas e depois reavaliem essas hipóteses à luz dos dados. Para fazer isso precisamos declarar quais são as probabilidades anteriores dessas hipóteses, mas se elas forem iguais, não precisamos nos preocupar. Eles anulam-se. O objetivo da análise bayesiana é articular o suporte relativo que as hipóteses recebem dos dados, e isso é expresso como uma relação. Já calculamos o valor p dos dados, D, sob Hipótese 1, que afirma que a probabilidade de cooperação é de .75. Esta probabilidade é p (D | H1) = .013. Agora, também fazemos um teste de significância na Hipótese 2 mais remota, que afirma que a probabilidade de cooperação é .5 e encontrar p (D | H2) = 6E-35, que é surpreendentemente baixo. Completamos o círculo bayesiano dividindo a probabilidade anterior pelo último, que produz 0,13 / 56E-35 = 2E32. H1, que diz que a probabilidade de cooperação é 0,75, é esmagadoramente favorecido pelos dados relativos à hipótese que diz que a probabilidade de cooperação é de 0,5. O valor de .75 deve estar certo. Certo?

Não tão rápido. Suponha que nossos dados atinjam a previsão do ponto H1, enquanto que tudo o resto permanece o mesmo. Agora p (D | H1) = 1 e p (D | H2) = 4E-27, o que nos dá uma razão de Bayes de 2E26. Observe que descemos do 2E32. Em outras palavras, agora que os dados se encaixam perfeitamente em H1, o suporte relativo para H1 é mais fraco do que era quando os dados eram mais extremos do que H1, quando, por meio de testes de significados, nós teríamos rejeitado H1. Aqui é onde os testadores de significância (e os estimadores de parâmetros) respondem com glee. Nas estatísticas bayesianas, tudo o que você obtém é o suporte para a hipótese que é menos falso com a conseqüência paradoxal de que o suporte relativo de uma hipótese pode aumentar à medida que o seu apoio absoluto (a distância entre dados e hipóteses) diminui.

Os Bayesianos podem responder olhando uma distribuição completa de hipóteses. No exemplo atual, eles podem começar com uma distribuição uniforme de todas as hipóteses de uma probabilidade de cooperação 0 para uma probabilidade de 1. Nesse caso, o achado empírico de .8 daria o suporte mais forte à hipótese que diz .8. Se eles fizeram isso, os Bayesianos seriam indistinguíveis dos estimadores de parâmetros. Ter uma teoria significa ter descartado algumas coisas. E isso é bom até a realidade colocar o impossível de volta ao mapa – como fez no observatório de Hamuy.