Sexismo, Testes e "Habilidade Acadêmica"

Quando eu estava ensinando meu curso de graduação em psicologia evolutiva, minha abordagem para testes e avaliação era única. Você pode ler sobre essa filosofia com mais detalhes aqui, mas a essência do meu método foi especificamente evitar formatos de escolha múltipla a favor de perguntas de curta-avaliação com capacidade de revisão ilimitada por parte dos alunos. Eu favoreci este formato de exame por uma série de razões, entre as quais o fato de que (a) eu não sentia que os testes de escolha múltipla eram muito bons para avaliar o quão bem os alunos entenderam o material (a memorização e o bom adivinho não são iguais) (b) Eu realmente não me importo em classificar meus alunos, tanto quanto eu me importasse com eles para aprender o material. Se eles não o compreenderam corretamente em sua primeira tentativa (e muito poucos alunos fazem), queria que eles tivessem a capacidade e a motivação para continuar envolvendo-se com isso até que eles conseguissem direito (o que eventualmente aconteceu, a média da turma para cada exame começou em torno de 70 e subiu para 90). Para os propósitos da discussão de hoje, o ponto importante aqui é que meus exames foram um pouco mais cognitivamente desafiantes do que o habitual e, de acordo com um novo artigo, isso significa que eu tidiquei involuntariamente meus exames de maneira que desfazem "grupos historicamente desatendidos" como mulheres e pobres.

Flickr/getradwithbrad
Oops …
Fonte: Flickr / getradwithbrad

O que chamou a atenção para este artigo em particular, no entanto, foi o comunicado de imprensa inicial que o acompanhou. Especificamente, os autores foram citados como dizendo algo que achei, bem, um pouco estranho:

"À primeira vista, pode-se assumir que as diferenças no desempenho do exame são baseadas na capacidade acadêmica. No entanto, nós controlamos isso em nosso estudo, incluindo as médias do ponto de classificação de entrada dos estudantes em nossa análise "

Assim, os autores parecem acreditar que uma lacuna no desempenho em testes acadêmicos surge independentemente das habilidades acadêmicas (que envolvam). Isso levantou a questão imediata em minha mente de como alguém sabe que as habilidades são as mesmas, a menos que se tenha um método para testá-las. Parece um pouco estranho dizer que as habilidades são as mesmas com base em um conjunto de testes (aqueles que forneceram GPAs entrantes), mas depois continuar a sugerir que as habilidades são as mesmas quando um conjunto diferente de testes fornece um resultado contrário. No interesse de resolver minha curiosidade, rastreei o papel para ver o que realmente foi relatado; Afinal, essas pequenas notícias explodiram com frequência os detalhes errados. Infelizmente, este apareceu para capturar as opiniões do autor com precisão.

Então, comece por revisar brevemente o que os autores estavam observando. O artigo, de Wright et al (2016), baseia-se em dados coletados de três anos de duração de três cursos de biologia introdutória que abrangem 26 instrutores diferentes, aproximadamente 5.000 alunos e 87 exames diferentes. Sem testes de detalhes desnecessários, os testes foram avaliadas por avaliadores independentes quanto ao desafio cognitivo que eles eram, seu formato e os alunos foram classificados de acordo com seu status de gênero e sócio-econômico (SES, conforme medido por se qualificarem para um programa de ajuda financeira). A fim de tentar e controlar a capacidade acadêmica, Wright e cols. (2016) também analisaram o GPA de primeiro ano dos estudantes que entram nas aulas de biologia (com base em aproximadamente 45 créditos, nos dizem). Como os autores controlam o GPA entrante, eles esperam persuadir o leitor do seguinte:

Isso implica que, em pelo menos uma medida, esses alunos têm a mesma habilidade acadêmica, e se eles tiverem resultados diferenciais em exames, então fatores que não sejam habilidades provavelmente influenciam seu desempenho.

Agora, pode-se argumentar que há mais para a capacidade acadêmica do que é capturado por um GPA – o que é precisamente por isso que vou fazer isso em um minuto -, mas continuemos com o que os autores encontraram primeiro.

O teste desafiador cognitivo foi, de fato, bem, mais desafiador. Espera-se que um estudante masculino estatisticamente médio, por exemplo, faça cerca de 12% de pior no teste mais desafiador em sua amostra, em relação ao mais fácil. Este efeito não era o mesmo entre os gêneros, no entanto. Novamente, usando homens e mulheres estatisticamente médios, quando os testes eram os menos cognitivamente desafiadores, efetivamente não havia diferença de desempenho (cerca de 1,7% de diferença esperada favorecendo homens); No entanto, quando os testes foram os mais cognitivamente desafiadores, esse intervalo esperado aumentou para um espantoso esperado … diferença de 3,2%. Assim, enquanto a diferença de gênero quase nominalmente dobrou, em termos de importância real em qualquer sentido prático da palavra, seu tamanho era tal que provavelmente não seria notado a menos que alguém estivesse realmente procurando por ele. Um padrão semelhante foi descoberto para SES: quando os testes foram fáceis, não houve diferença efetiva entre aqueles baixos ou altos em SES (1,3% favorecendo aqueles mais altos); No entanto, quando os testes foram quase desafiadores, esta diferença esperada aumentou para cerca de 3,5%.

Flickr/Landon
Útil para detectar manchas estatísticas e insetos queimados
Fonte: Flickr / Landon

Há muito a dizer sobre esses resultados e como eles estão enquadrados no documento. Primeiro, como mencionei, elas são verdadeiramente pequenas diferenças; há poucos casos em que uma diferença de 1-3% nos resultados dos exames vai fazer ou quebrar um aluno, então eu não acho que haja algum motivo real para se preocupar ou ajustar os testes; não praticamente, de qualquer maneira.

No entanto, há questões teóricas maiores, que estão no papel. Um deles é que os autores usam a frase "controlada pela habilidade acadêmica" com tanta frequência que um leitor pode realmente acreditar que é o que eles fizeram com uma simples repetição. O problema aqui, é claro, é que os autores não controlaram por isso ; Eles controlaram o GPA. Infelizmente para a apresentação de Wright et al (2016), essas duas coisas não são sinônimos. Como eu disse anteriormente, é estranho dizer que a habilidade acadêmica é a mesma porque um conjunto de testes (GPA entrante) diz que eles estão enquanto outro conjunto não. O primeiro conjunto de testes parece ser privilegiado por nenhum motivo de som. Devido a essa interpretação injustificada, os autores perdem (ou melhor, removem propositalmente) a capacidade de falar sobre como essas lacunas podem ser devidas a alguma diferença de desempenho. Este é um movimento retórico útil se alguém estiver interessado em fazer advocacia – pois implica que a lacuna é injusta e deve ser corrigida de alguma forma – mas não se alguém estiver buscando a verdade do assunto.

Outra questão bastante importante no trabalho é que, tanto quanto eu poderia dizer, os autores predisseram que encontrariam esses efeitos sem realmente fornecer uma explicação sobre como ou por que essa previsão surgiu. Ou seja, o que levou a sua expectativa de que os homens superariam as mulheres e os ricos superavam os pobres? Isso acaba por ser um problema porque, no final do trabalho, os autores flutuam algumas explicações possíveis (não testadas) para suas descobertas. A primeira delas é a ameaça de estereótipo: a idéia de que certos grupos de pessoas vão fazer mal em testes por causa de algum estereótipo negativo sobre seu desempenho. Este é um ajuste pobre para os dados por dois motivos: primeiro, enquanto Wright et al (2016) afirmam que o estereótipo está "bem documentado", ele realmente não consegue replicar (além de não ter muito sentido teórico). Em segundo lugar, mesmo que fosse uma coisa real, a ameaça do estereótipo, como geralmente estudava, exige que o sexo de alguém seja saliente antes do teste. Como eu encontrei um total de zero testes durante toda a experiência da faculdade que fez o meu saliência de gênero, muito menos meu SES, eu posso assumir que os testes em questão também não o fizeram. Para que a ameaça do estereótipo funcione como uma explicação, então, as mulheres e os pobres precisariam estar sob ameaça de estereótipo constante. Por sua vez, isso tornaria a documentação e a ameaça do estereótipo dos alunos em primeiro lugar bastante difícil, pois você nunca poderia ter uma condição em que seus assuntos não estavam experimentando. Em suma, a ameaça do estereótipo parece ser um ajuste ruim.

As outras explicações que são feitas para essa diferença de gênero são a possibilidade de as mulheres e estudantes pobres terem visões mais fixas da inteligência em vez das mentalidades de crescimento, então elas se retiram do material quando desafiadas ao invés de melhorar (ou seja, "nós precisamos mudar suas mentalidades para fechar esse desastroso intervalo de 2%), ou a possibilidade de que as questões de teste sejam escritas de maneiras que subjugam sutilmente a capacidade das pessoas de pensar sobre elas (o exemplo que os autores levantam é que uma questão escrita sobre a aplicação de algum conceito aos esportes pode favorecer homens, em relação às mulheres, já que os homens tendem a desfrutar de esportes mais). Dado que os autores tiveram acesso às perguntas do teste, parece que eles poderiam ter examinado essa última possibilidade em pelo menos alguns detalhes (minimamente, talvez, observando se os testes escritos por instrutoras femininas resultaram em resultados diferentes dos escritos por homens ou examinando o conteúdo das próprias perguntas para ver se as mulheres pioravam em relação a gênero). Por que eles não realizaram tais análises, não posso dizer.

Flickr/Stephen Downes
Talvez fosse muito trabalho e eles careciam de uma mentalidade de crescimento
Fonte: Flickr / Stephen Downes

Em resumo, essas diferenças médias muito menores que foram descobertas poderiam ser facilmente marcadas – muito simplesmente – para o GPA não ser uma medida completa da capacidade acadêmica de um aluno. Na verdade, se os testes que determinam o GPA de primeiro ano não são os desafios mais cognitivos (como se poderia esperar, dado que os alunos teriam feito cursos introdutórios principalmente gerais com grandes tamanhos de aula), isso pode fazer com que os alunos parecem ser mais semelhante à capacidade do que realmente eram. O assunto pode ser pensado para usar este exemplo estereotipo-masculino (que certamente irá dificultar a capacidade das mulheres de pensar sobre isso): imaginei testar as pessoas em uma sala com pesos que variam de 1-15 libras e pedi-lhes para enrolar cada vez. Isso me daria um senso fraco para quaisquer diferenças subjacentes na força porque o alcance da habilidade testada foi restrito. Desde que eu pedisse que eles fizessem o mesmo com pesos que variam de 1-100 libras na próxima semana, eu posso concluir que é algo sobre os pesos – e não as habilidades das pessoas – quando se tratou de descobrir por que as diferenças surgiram de repente (desde que eu erroneamente acredito que eu já controlei suas habilidades pela primeira vez).

Agora, eu não sei se algo assim é realmente responsável, mas se os testes que determinam o GPA de primeiro ano estavam tocando os mesmos tipos de habilidades nos mesmos graus dos cursos de biologia estudados, então o controle do GPA deveria ter cuidado problema potencial. Uma vez que o controle do GPA não aconteceu, eu me sinto seguro assumindo que há alguma diferença nos testes em termos de habilidades que eles estão medindo.

Referências: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M., & Brownell, S. (2016). A dificuldade cognitiva eo formato dos exames prevê diferenças de gênero e socioeconômicas no desempenho de exames de estudantes em cursos de biologia introdutória. Life Science Education, 15.