Cuidado com pequenas maiorias

Galton Em uma publicação recente, argumentei que, embora se possa dizer muito pela racionalidade básica da conformidade humana (e não humana), também pode haver problemas. O exemplo du jour foi um concurso de beleza. Com muita escolha de cópias entre as mulheres (as mulheres que escolhem homens que outras mulheres escolhem), mulheres e machos podem sofrer, em média.

Outra limitação é o tamanho da maioria que está sendo copiada. Suponha que você esteja tentando estimar o número de bolinhas em uma jarra de vidro. Há mais mármores do que você pode contar. No entanto, você pode adivinhar usando sua impressão do tamanho do frasco e do tamanho das bolinhas individuais. Agora, suponha que você tenha dito que 100 outras pessoas já fizeram estimativas independentes umas das outras e que 95% dessas estimativas se situam entre 700 e 800. Com o benefício desta informação, sua melhor estratégia é estimar que existem 750 bolinhas na jar. Se você estimou o número como 200, você se reconheceria como um outlier, cujo julgamento não deveria ser confiável. Usar a informação agregada das estimativas dos outros é como usar a linha de vida "poll-the-audience" sobre "Quem quer ser um milionário?" Mas e se você calculou que o número de mármores fosse 200 antes de conhecer as estimativas dos outros? Depois de descobrir o quão longe você é do resto do grupo, você não deve se opor quando sua estimativa for removida como um outlier.

Como regra geral, torna-se mais fácil identificar outliers à medida que o número de observações aumenta e à medida que a variância ou essas observações diminuem. Agora, suponha que apenas duas pessoas tenham dado uma estimativa alta, enquanto você deu uma estimativa baixa. Você deve admitir graciosamente a idéia de que suas estimativas são provavelmente mais precisas do que as suas, porque elas concordam entre si, enquanto você não concorda? Este é um pensamento tentador. Talvez o acordo revele precisão, mesmo quando o número de pessoas acordadas está em seu mínimo lógico.

Agora vou argumentar que o acordo é um mero proxy de precisão, e não um bem em particular. É verdade que, se todos os julgamentos forem precisos, todos concordarão um com o outro. O inverso, no entanto, não é verdade porque os julgamentos podem estar de acordo por razões que não têm nada a ver com a precisão. Uma dessas razões é chance.

A maneira alternativa de proceder é usar os três julgamentos (o seu e os julgamentos dos outros) e calcular a média. A média é a melhor estimativa do parâmetro latente que você está tentando capturar. De acordo com essa abordagem, cada um dos três juízes é um instrumento de medição independente e cada julgamento individual é composto de informação (verdade) e ruído (erro). Os erros são assumidos como independentes um do outro, e os julgamentos médios os eliminam.

Agora temos duas recomendações concorrentes sobre como proceder se houver dois julgamentos altos e baixos. (A) Remova o julgamento baixo ou persuade o juiz periférico a se juntar à maioria; (B) média dos três julgamentos sem preconceito contra qualquer um deles. Cada método tem seus defensores. O principal argumento para A é que a baixa estimativa é "obviamente" e franca e que o acordo indica precisão [eu já questionei essa idéia]. Além disso, os defensores de A acreditam que a discussão entre os juízes é sempre salutar. Através da discussão, os juízes podem se aproximar da verdade. Mas qual a verdade? Se os dois altos juízes concedem um pouco e o juiz baixo concede muito, o resultado pode ser a média que já foi calculada a partir dos julgamentos originais. Se assim for, a discussão em grupo era um desperdício. Alternativamente, se apenas o juiz periférico admitir (o que provavelmente ocorrerá sob pressão de conformidade assimétrica), o resultado é o que seria obtido simplesmente ignorando o outlier. Mais uma vez, a discussão em grupo foi uma perda de tempo e adrenalina. Uma terceira possibilidade é que o juiz periférico conceda um pouco mais do que os dois juízes concordantes juntos. O resultado é um julgamento de grupo que pode ser descrito como uma média ponderada, em que cada peso individual é proporcional à proximidade do julgamento com a média geral. Isso parece bom como uma boa idéia, mas ninguém sabe quais os pesos devem ser exatamente. Há muitos pontos entre as estratégias puras A e B, onde o julgamento ponderado pode acabar. Portanto, considerarei apenas A e B no restante deste ensaio.

Ao usar dois princípios estatísticos, podemos determinar se A ou B é a melhor estratégia sem apelar para intuição, plausibilidade ou tradição (sempre fizemos isso desta maneira!). O primeiro método é perguntar o quão provável é o conjunto de três julgamentos observados se assumirmos que A ou B está correto. Suponha que os três julgamentos sejam 2, 2 e -2. Pense nesses números como uma amostra extraída de uma população com um desvio padrão de 1. Em contraste com a distribuição normal padrão, no entanto, a média não é 0. Em vez disso, a média é 2 se assumirmos que a teoria A está correta, ou é .667 (2/3) se a teoria B estiver correta. A probabilidade conjunta de encontrar 2, 2 e -2 (ou números mais extremos) é ser .000008 sob a teoria A e .00003 na teoria B. A proporção deste último sobre o anterior é 3,75, o que significa que se ambos as teorias foram consideradas igualmente prováveis ​​de serem verdadeiras no início, a teoria B é quase quatro vezes maior que a teoria A. Esse resultado significa que, se você remover o julgamento periférico (ou persuadir o juiz dissidente) a mudar de opinião, você perde informação importante, e o julgamento resultante do grupo torna-se pior.

O segundo método é perguntar o que aconteceria se mais julgamentos fossem coletados de outros observadores independentes [note que não há necessidade de realmente obter esses julgamentos!] Agora assumimos que a população de números subjacentes a todos esses julgamentos é um padrão normal (M = 0, SD = 1). Por isso, o conjunto de números associados à teoria A após a remoção ou correção de atípulo (2, 2, 2) é extremamente positivo. Se outro conjunto de três julgamentos fossem amostrados da população, a média resultante provavelmente ficaria entre 0 e 2, e mais próxima do último, na medida em que o processo de medição é confiável. Como a medição nunca está completamente livre de erro, esperamos uma certa regressão para a média. Assumindo o conjunto de números dado pela teoria B (2, 2, -2), a média da segunda amostra de três julgamentos provavelmente ficaria entre 0 e 2/3, e porque o 2/3 é menos extremo do que 2, o tamanho do efeito de regressão esperado é menor na teoria B do que na teoria A.

À medida que esse exercício mostra, ignorar (ou browbeating) outliers em uma pequena amostra não corrige o efeito de regressão bem conhecido na medida; Em vez disso, isso piora. A melhor estimativa na teoria B (2/3) é provavelmente um pouco maior do que seria após a amostragem contínua. Em qualquer caso, essa estimativa deve ser reduzida. Ao cortar o outlier, no entanto, movemos a estimativa do grupo de 2/3 para 2. Ao tornar a estimativa mais extrema, estamos mais propensos a ser inflado positivamente.

Vamos ilustrar o efeito de regressão com números concretos. Se assumirmos otimistamente que os julgamentos são altamente confiáveis ​​(r = .9), então um julgamento médio de 2 (a média de 2, 2 e 2) é previsível para replicar como uma média de 1,8. Em comparação, prevê-se que um julgamento médio de 2/3 (a média de 2, 2 e -2) seja replicado como .6. Note-se que, em virtude de sua maior extremidade, o julgamento anterior se torna mais inflado do que o último. No entanto, de acordo com a visão de que o acordo mostra precisão, o primeiro julgamento é o melhor. Se assumimos mais pessimista que os julgamentos só têm uma confiabilidade modesta (r = .6), os efeitos de regressão são maiores, mas mostram o mesmo padrão. Uma média original de 2 regride para um valor previsto de 1,2 e uma média original de 2/3 regride para um valor previsto de 0,4.

Para que você pense que esta história é muito abstrata e que as teorias A e B não fazem nada, de qualquer forma, deixe-me enfatizar que eles são de grande importância quando pequenos comitês decidem admissões, financiamentos, promoções, etc. Considere 100 candidatos que solicitem dinheiro para fazer pesquisas. Cada proposta é avaliada por três juízes e as pontuações de cada juiz são padronizadas. Somente os melhores podem ser financiados. Uma proposta com classificações de 2, 2 e 2 é segura, mas uma proposta com classificações de 1, 1 e 1 não é. Agora, uma terceira proposta é do tipo discutido acima (2, 2, -2). De acordo com a teoria B (média simples), esta proposta não faz o corte. De acordo com a teoria A (remoção de atípulo), esta proposta sobe acima da segunda, e possivelmente não permite que ela seja financiada. Então a discussão em grupo pode causar muitos danos. Se, como neste exemplo, as pontuações relativamente elevadas são de maior interesse, as propostas (pessoas) com um outlier negativo serão seletivamente favorecidas. Em um contexto de financiamento ou promoção, ninguém está interessado em casos com duas pontuações baixas e uma pontuação alta.

A regressão também afeta decisões discretas. Quando 3 juízes votam por unanimidade para financiar um projeto (promover um colega ou exonerar um suspeito), é incontestável concluir que todos os outros concordariam se fosse perguntado. A verdadeira probabilidade de 'aye' é [provavelmente] menor do que a probabilidade na amostra se esta última for alta. Se, por exemplo, a probabilidade real for .9, então a probabilidade de uma amostra de 3 juízes independentes (ou seja, seus julgamentos não estão correlacionados) será unanimemente a favor é .73. Em outras palavras, eventos raros (aqui: votos negativos) estarão sub-representados em pequenas amostras. Tendo observado uma amostra de 3 juízes unânimes, é provável que o verdadeiro consenso seja menos do que perfeito. Mas, como é imperfeito? Como sabemos o quanto de uma correção para fazer?

Neste exemplo, eu assumi que na verdade, p = .9, mas p poderia ter qualquer valor diferente de 0 [pois, se p fosse 0, nenhum voto de sim poderia ocorrer]. A solução elegante, proposta por Laplace, é professar ignorância; é assumir que, no início, todos os valores de p são igualmente prováveis. Tendo observado uma amostra, podemos perguntar como é provável que essa amostra fosse extraída de cada valor possível de p. Claramente, uma amostra de 3 votos sim provavelmente seria desenhada se p = .99, seguido de p = .98, e assim por diante para p = .01. É necessário um cálculo integral para fazer isso direito, mas sob o pressuposto de ignorância, tudo se resume a uma fórmula simples e bela. A melhor estimativa, ou seja, a estimativa que minimiza erros de regressão e erros do tipo oposto, é (k + 1) / (n + 2), onde k é o número de "sucessos" [aqui, sim votos] e n é o tamanho da amostra. Tendo observado 3 votos sim e nenhuma dissidência, a estimativa laplaciana do verdadeiro apoio na população é 4/5, ou p = 0,8. Para ignorar Laplace e estimar p = 1 é cometer um erro de regressão que é um quinto da estimativa em tamanho. Se a amostra fosse maior e a unanimidade ainda fosse observada, o caso da suposição da verdadeira unanimidade seria mais forte [por exemplo, se 30 dos 30 juízes amostrados votarem sim, a estimativa de p é 31/32 ou .969].

Voltemos aos painéis sem a perfeita unanimidade. Se 29 sim-juiz excluir um nay-sayer ou induzir uma mudança de mente, a presunção de unanimidade mascara um efeito de regressão considerável (.094 = 1-.906). A mesma estratégia de exclusão ou influência social produz um erro de regressão muito maior em uma pequena amostra. Se 2 yea-sayers excluir ou converter um dissidente, o erro é .4 (1-.6, onde .6 é (2 + 1) / (3 + 2).

A lógica de medição, integração de dados e correção para erro provável é uma venda difícil. Muitas pessoas têm uma aversão ao crunching de números porque parece mecânico. Parece muito mais humano ter uma conversa entre pessoas razoáveis ​​e chegar a um consenso. Consenso se sente bem. Os membros da maioria, que provavelmente prevalecerão, podem aproveitar a crença de serem factualmente corretos e socialmente persuasivos (tendo estabelecido um dissidente direto). O antigo dissidente tem pelo menos a satisfação superficial de ser aceito pelo grupo. Os 3 juízes provavelmente dormem bem naquela noite, sem se dar conta de que cometem uma injustiça. No exemplo original, um bom caso sem variância inicial (1, 1, 1) agora classifica abaixo do caso que aumentou de (2, 2, -2) para (2, 2, 2). Em um contexto de financiamento, onde existe uma linha nítida entre a vida ea morte, um dos casos que derrubou um entalhe, porque o caso revisado se levantou, cruzará essa linha. A irracionalidade pode gerar injustiça.

Podemos concluir que, no tipo de configuração de decisão considerada aqui, é racional (e ético) tratar cada julgamento como uma amostra independente de um como sugerido pela teoria B. Se os julgamentos forem contínuos, eles devem ser promediados. Se os julgamentos são discretos, eles devem ser convertidos em proporções. Ambos os tipos de estimativa podem ser corrigidos para o provável erro de amostragem para combater os efeitos de regressão. Não é ciência do foguete, e as pessoas que se submetem a ser julgadas merecem ser tratadas pelos melhores padrões.

Aliás, o cavalheiro da foto é Sir Francis Galton.