Perversão Acadêmica

Como instrutora, fiz o meu negócio promulgar um tipo único de política de avaliação para meus alunos. Especificamente, todos os testes são estilo de ensaio curto e as revisões são permitidas após uma nota ter sido recebida. Isso garante que os alunos sempre tenham alguma motivação para descobrir o que eles deram errado e melhorá-lo. Em outras palavras, projeto minha avaliação para incentivar a aprendizagem. Do ponto de vista de uma perspectiva abstrata sobre o valor da educação, isso parece uma perspectiva razoável para adotar (pelo menos para mim, embora eu não tenha ouvido nenhum dos meus colegas argumentar com o método). Também é, por falta de uma palavra melhor, uma coisa estúpida para mim, de uma perspectiva profissional. O que quero dizer aqui é que – no mercado de trabalho – a minha capacidade de conseguir que os alunos aprendam com sucesso não é exatamente incentivada, ou pelo menos essa é a impressão de que outros com mais insights passaram para mim. Não só as pessoas em comissões de contratação não são particularmente interessadas em quanto tempo eu estou disposto a dedicar aos alunos aprendendo (não é a primeira coisa que eles olham, ou mesmo no top 3, eu acho), mas o tempo que eu faço investir neste método de avaliação é o tempo que eu não estou gastando fazendo outras coisas que eles valorizam, como procurar subsídios ou tentar publicar tantos artigos como eu posso nas lojas mais prestigiadas disponíveis.

Explosm.net
"Se você é tão inteligente, por que você não é rico?"
Fonte: Explosm.net

E o meu método de avaliação envolve um pouco de tempo. Quando cada teste leva cerca de 5-10 minutos para classificar e fazer comentários e você está olhando para baixo uma classe de cerca de 100 alunos, algumas matemáticas rápidas indicam que cada rodada de classificação irá demorar cerca de 8 a 16 horas. Em contrapartida, eu poderia, em vez disso, oferecer aos meus alunos um teste de escolha múltipla, que poderia ser classificado de forma quase automática, reduzindo meu tempo de investimento para apenas alguns minutos. No decorrer de um semestre, então, eu poderia dedicar 24 a 48 horas para ajudar os alunos a aprender (em três testes) ou eu poderia, em vez disso, fornecer notas para elas em cerca de 15 minutos usando outros métodos. Tanto quanto alguém em uma comissão de contratação poderá dizer, essas duas opções são efetivamente equivalentes. Claro, um ajuda os alunos a aprender melhor, mas ser bom em conseguir que os alunos aprendam não é exatamente incentivado a nível profissional . Aqueles de 24 a 48 horas poderiam ter sido gastos procurando fundos de subsídio ou documentos de redação e – importante – isso é por 100 alunos; Se você está ensinando três ou mais aulas por semestre, esse número sobe.

Esses incentivos não se estendem apenas a testes e classificações. Se os comitês de contratação não são tão preocupados com os resultados de aprendizagem dos meus alunos, isso tem implicações quanto ao tempo que eu devo gastar projetando meu material de leitura também. Digamos que eu fui confrontado com a tarefa de ter que ensinar meus alunos sobre informações que eu não estava familiarizado, seja o tópico da classe como um todo ou uma novela particular de informações dentro desse tópico de outra forma familiar. Eu poderia seguir a rota demorada e familiarizar-me com a informação em primeiro lugar, rastrear fontes primárias relevantes, lê-las em profundidade, avaliar seus pontos fortes e fracos, bem como pesquisar pesquisa de acompanhamento sobre o assunto. Eu também poderia seguir a rota rápida e simplesmente ler a seção de resumo / discussão do documento ou apenas informar sobre o resumo da pesquisa fornecida por escritores de livros didáticos ou materiais do editor.

Se o seu objetivo é preparar cerca de 12 semanas de material de palestra, é bastante claro qual método economiza a maior parte do tempo. Se ter cursos bem pesquisados, cheios de informações que você é especialista, não são devidamente incentivados, então por que esperamos que os professores tomem o último caminho? Orgulho, talvez – muitos professores querem ser bons em seu trabalho e úteis para seus alunos -, mas parece que outros incentivos empurram contra o tempo dedicado a uma educação de qualidade, se alguém quiser se tornar um atrativo *. Ouvi ensinar como uma distração por mais de um instrutor, sugerindo fortemente a respeito de onde eles percebem que existem incentivos.

As implicações dessas preocupações sobre incentivos se estendem além de quaisquer frustrações pessoais que eu possa ter e eles estão começando a obter uma maior parte do foco. Um dos eventos mais recentes que destacaram esta questão foi apelidado de crise de replicação, onde muitos achados publicados não apareceram novamente quando as equipes de pesquisa independentes os procuraram. Esta também não era uma minoria apreciável; Na psicologia, era bem mais de 50% deles. Não há dúvida de que uma parte saudável deste estado de coisas deve sua existência aos pesquisadores propositadamente usando métodos questionáveis ​​para encontrar resultados publicáveis, mas por que eles o fizeram em primeiro lugar? Por que eles estão tão motivados para encontrar esses resultados? Novamente, fatores de orgulho na equação, mas, como é geralmente o caso, outra parte dessa resposta gira em torno da estrutura de incentivo da academia: se os acadêmicos são julgados, contratados, promovidos e financiados sobre a capacidade de publicar resultados, eles são incentivados para publicar tantos desses resultados quanto possível, mesmo que os resultados em si não sejam particularmente confiáveis ​​(eles também são desincentivados de tentar publicar resultados negativos, em muitos casos, o que causa outros problemas).

Um novo trabalho tem feito as rodadas discutindo esses incentivos na academia (Edwards & Roy, 2017), que começa com uma premissa simples: pesquisadores acadêmicos são humanos. Como outros seres humanos, procuramos responder a incentivos particulares. Embora as estruturas de incentivo na academia possam ter sido criadas com boas intenções em mente, há sempre uma ameaça iminente da lei de conseqüências não intencionais. Neste caso, as conseqüências não intencionais referidas na Lei de Goodhart, que pode ser expressa como tal: " Qualquer regularidade estatística observada tende a entrar em colapso quando a pressão for colocada sobre ele para fins de controle " ou " quando uma medida se torna um alvo , ele deixa de ser uma boa medida . "Em essência, essa idéia significa que as pessoas seguirão a letra da lei e não o espírito.

Flickr/alan schoolar
Fonte: Flickr / alan schoolar

Colocando isso em um exemplo acadêmico, uma universidade pode querer contratar professores inteligentes e perspicazes. No entanto, avaliar a inteligência e a percepção são difíceis de fazer, portanto, ao invés de avaliar esses traços, a universidade avalia as medidas de proxy deles; algo que tende a ser associado com inteligência e percepção, mas não é ele mesmo nenhuma dessas coisas. Neste caso, pode-se notar que professores inteligentes e perspicazes tendem a publicar mais papéis do que seus pares. Como o número de artigos que alguém publica é muito mais fácil de medir, a universidade simplesmente mede essa variável em vez de determinar quem contratar e promover. Embora os registros de publicação sejam inicialmente bons preditores de desempenho, uma vez que eles se tornem alvo de avaliação, essa correlação começa a diminuir. Como os documentos de publicação, por si só, se tornaram o comportamento alvo em que as pessoas são avaliadas, começam a maximizar essa variável em vez da coisa que se pretendia medir em primeiro lugar . Em vez de publicar artigos de qualidade menos cheios de percepção, eles publicam muitos artigos que fazem um trabalho pior de nos ajudar a entender o mundo.

Na mesma linha, as notas de alunos em um teste padronizado podem ser uma boa medida de eficácia do professor; professores mais efetivos tendem a produzir estudantes que aprendem mais e depois melhoram no teste. No entanto, se os professores pobres são então penalizados e informados para melhorar seu desempenho ou encontrar um novo emprego, os professores podem tentar jogar o sistema. Agora, em vez de ensinar seus alunos sobre um assunto de forma holística que resulte em aprendizagem real, eles apenas começam a ensinar à prova. Ao invés de ser ensinado, digamos, química, os alunos começam a se ensinar a fazer um teste de química e os dois não são decididamente o mesmo. Enquanto os professores só são avaliados nas notas dos alunos que realizam esses testes, essa é a estrutura de incentivo que acaba sendo criada.

Flickr/biologycorner
Fonte: Flickr / biologycorner

Além de impactar o número de trabalhos que os acadêmicos podem publicar, são discutidas várias outras possíveis consequências não intencionais das estruturas de incentivo. Um dos quais envolve medidas da qualidade do trabalho publicado. Podemos esperar que documentos teoricamente e empíricamente significativos recebam mais citações do que o trabalho mais fraco. No entanto, como a significância de um documento não pode ser avaliada diretamente, analisamos medidas de proxy, como a contagem de citações (com que frequência um artigo é citado por outros artigos ou autores). A consequência? As pessoas que citam seu próprio trabalho mais frequentemente e os revisores de pares solicitando que seu trabalho sejam citados por pessoas que procuram publicar no campo. O número de citações sem sentido é inflacionado. Há também incentivos para publicação em revistas "boas" ou de prestígio; aqueles que se pensa que preferencialmente publiquem um trabalho significativo. Mais uma vez, não podemos simplesmente avaliar o quão "bom" é um diário, então usamos outras métricas, como a frequência com que os documentos desse periódico são citados. O resultado líquido aqui é muito o mesmo, onde os periódicos preferem publicar artigos que citem documentos publicados anteriormente. Indo um passo adiante, quando as universidades são classificadas em determinadas métricas, elas são incentivadas a jogar essas métricas ou simplesmente a denunciar mal. Aparentemente, várias faculdades foram pego apenas deitado naquela frente para obter seus rankings, enquanto outros podem melhorar seus rankings sem realmente melhorar sua instituição.

Há muitos exemplos que podemos correr embora (e eu recomendo que você verifique o próprio papel por esse motivo), mas o ponto maior que eu queria discutir foi o que tudo isso significa em uma escala mais ampla. Na medida em que aqueles que estão mais dispostos a enganar o sistema são recompensados ​​por seu comportamento, aqueles que estão menos dispostos a trapacear serão eliminados, e lá temos um problema real em nossas mãos. Para a perspectiva, Fanelli (2009) informa que 2% dos cientistas admitem a fabricação de dados e 10% relatam se envolver em práticas menos abertas, mas ainda questionáveis, em média; Ele também relata que, quando perguntado sobre se eles sabem de um caso de seus colegas fazendo tais coisas , esses números são em torno de 14% e 30%, respectivamente. Embora esses números não sejam simples de interpretar (é possível que algumas pessoas traquem muito, várias pessoas sabem dos mesmos casos, ou que alguém esteja disposto a enganar se a oportunidade se apresentasse, mesmo que ainda não o tenha feito, por exemplo ), eles devem ser levados muito a sério como motivo de preocupação.

(Também vale a pena notar que Edwards & Roy relataram erroneamente as descobertas de Fanelli citando seus limites superiores como se fossem a média, fazendo com que o problema da má conduta acadêmica pareça tão ruim quanto possível. Provavelmente é um erro, mas destaca a possibilidade que os erros provavelmente seguem a estrutura de incentivo também, não apenas trichar. Assim como os pesquisadores têm incentivos para exagerar suas próprias descobertas, eles também têm incentivos para exagerar as descobertas de outros para ajudar a fazer seus pontos de forma convincente)

Flickr/Jacob
O que é irônico para um documento reclamando sobre incentivos para exagerar os resultados.
Fonte: Flickr / Jacob

Quando não é apenas o caso de um punhado de maçãs ruins na academia estão contribuindo para um problema de, digamos, trapaceando com seus dados, mas sim uma minoria apreciável deles, isso tem potencial para ter pelo menos duas conseqüências importantes. Primeiro, pode encorajar mais não-trapaceiros a se tornarem trapaceiros. Se eu fosse observar meus colegas trapaceando o sistema e ser recompensado por isso, eu poderia ser encorajado a me enganar apenas para manter-me diante de oportunidades (muito) limitadas para empregos ou financiamentos. Paralelos podem ser atraídos para o uso de esteróides em esportes, onde aqueles que não querem inicialmente usar esteróides podem ser encorajados se o suficiente de seus concorrentes fizeram.

A segunda consequência é que, à medida que mais pessoas participam desse tipo de cultura, a pública nas universidades – e talvez a pesquisa científica em geral – corrompe. Com a erosão da fé pública, os fundos são reduzidos e aumentam o ceticismo em relação aos achados da pesquisa; Ambas as respostas são justificadas (por que você financiaria pesquisadores em que não pode confiar?) e preocupante, pois existem problemas importantes que a pesquisa pode ajudar a resolver, mas somente se as pessoas estão dispostas a ouvir.

* Para ser justo, não é que minha capacidade de professor é inteiramente irrelevante para a contratação de comitês; É que não só essa habilidade é secundária a outras preocupações (isto é, minha habilidade de ensino pode ser examinada apenas depois de restringir a pesquisa por meio de financiamento e publicações), mas minha capacidade de ensino não é realmente avaliada. O que é avaliado são as avaliações dos meus alunos e não é decididamente a mesma coisa.

Referências

Edwards, M. & Roy, S. (2017). Pesquisa acadêmica no século 21: manutenção da integridade científica em um clima de incentivos perversos e hipercompetição. Environmental Engineering Science, 34, 51-61.

Fanelli, D. (2009). Quantos cientistas fabricam e falsificam pesquisas? Uma revisão sistemática e meta-análise de dados de pesquisa. PLoS One. 4, e5738