Onde o condicionamento operacional foi errado

O condicionamento operacional é o nome de BF Skinner para aprendizagem instrumental: aprendendo por conseqüências. Não é uma nova ideia, é claro. A humanidade sempre soube como ensinar crianças e animais por meio de recompensa e punição. O que deu ao rótulo de Skinner a borda foi sua invenção de um método brilhante de estudar esse tipo de aprendizagem em organismos individuais. A caixa Skinner e o gravador cumulativo eram uma dupla imbatível.

JS image
Fonte: imagem JS

O condicionamento operacional avançou rapidamente no início. A descoberta de horários de reforço revelou regularidades insuspeitas. Cada novo cronograma de reforço gerou um novo padrão de registro cumulativo: o intervalo fixo "scallop", resposta constante no intervalo variável e break-and-run em agendas de proporção fixa. Os padrões eram confiáveis ​​e poderiam ser recuperados após o organismo ter sido alterado para um novo procedimento. Os dados permitiram a exploração total do método experimental dentro do organismo: comparando o comportamento de um único animal exposto reversivelmente a dois procedimentos diferentes, em vez de comparar dois grupos de animais. Os resultados do grupo aplicam-se a grupos; eles podem ou não se candidatarem aos indivíduos que compõem um grupo. Em 2016, 52% dos britânicos aprovaram o Brexit; mas cada indivíduo era 100% para ou 100% contra. Muitas vezes, os pesquisadores assumiram que os dados do grupo que mostravam uma curva de aprendizado suave significavam que indivíduos individuais também aprenderam gradualmente. Eles não.

O próximo passo natural teria sido desvendar os processos por trás da ordem revelada por registros cumulativos. O que está acontecendo nessa interação entre o procedimento de cronograma e o organismo individual que dá origem a essas regularidades marcantes? Em outras palavras, o que o organismo está aprendendo e como está aprendendo? Qual é o processo?

O campo não deu esse passo. Nesta nota vou tentar e explicar o porquê.

Três coisas impediram o condicionamento operante de se desenvolver como uma ciência: uma limitação do método, uma avaliação exagerada e desconfiança da teoria.

O método. O registro acumulado foi um avanço fantástico em um aspecto: permitiu estudar em tempo real o estudo do comportamento de um único animal. Até Skinner, os dados da psicologia animal consistiam, em grande parte, em médias grupais – quantos animais no grupo X ou Y viraram à esquerda vs. direita no labirinto, por exemplo. Não só os animais individuais foram perdidos no grupo, assim como os tempos reais – quanto tempo o rato no labirinto levou para decidir, quão rápido ele correu? O que explorou antes de decidir?

Mas a configuração Skinner-box também é limitada – para uma ou algumas respostas pré-definidas e para mudanças em sua taxa de ocorrência. O condicionamento operacional, de fato, envolve a seleção de um repertório de atividades: o bit de teste de tentativa e erro. O método Skinner-box encoraja o estudo de apenas uma ou duas respostas já aprendidas. Do repertório, esse conjunto de possíveis respostas emitidas (nas palavras de Skinner) "por outros motivos" – de todos os modos possíveis de comportamento a espreitabilidade abaixo do limiar, mas disponíveis para serem selecionados – das respostas secretas , tão essenciais para o aprendizado instrumental, existe sem menção.

Muito pedido? O segundo problema é um respeito não examinado para dados ordenados: curvas suaves que podem medir propriedades simples e atheoreticas do comportamento. Fred Skinner, com frequência, citou Pavlov: "controle suas condições e você verá ordem". Mas pedir em que? Algum pedido vale a pena obter? Ou alguns resultados ordenados talvez sejam mais informativos do que outros?

A maneira mais fácil de obter ordem, reduzir a variação, é tomar uma média . As experiências skinnerianas envolvem animais solteiros, de modo que o método desencoraja a média entre os animais. Mas por que não média todos esses picaretas ou prensas de alavanca? O próprio Skinner parecia fornecer uma justificativa. Em uma de suas poucas excursões teóricas, ele propôs que as respostas tenham uma força equivalente à probabilidade de resposta . Ele nunca justificou a ideia, mas é tão plausível que a pequena justificativa parece ser necessária.

O próximo passo foi crucial: como medir a probabilidade de resposta? A taxa de resposta é um candidato óbvio. Mas os registros cumulativos mostram que a taxa de resposta varia de momento a momento na maioria dos horários de reforço. Em intervalos fixos, por exemplo, os indivíduos deixam de responder logo após cada reforço e, em seguida, aceleram lentamente até o máximo, à medida que o tempo para o próximo reforço se aproxima. Uma programação de intervalo fixo (FI) providencia que a primeira resposta após um tempo fixo, ligue-a I , é reforçada. O tempo pós-reforço é uma sugestão confiável para quando a próxima recompensa estará disponível. Os organismos se adaptam adequadamente, esperando uma fração de tempo fixa antes de começar a responder.

Mas em outro cronograma, intervalo variável (VI), o tempo é variável. Se é completamente aleatório de momento a momento e o organismo responde a uma taxa constante, o tempo de pós-execução não fornece informações sobre a probabilidade de a próxima resposta ser recompensada. Os organismos se adaptam à falta de informação respondendo a uma taxa invariativa em horários de intervalos variáveis. Esta propriedade da VI tornou uma ferramenta óbvia. A taxa de resposta constante que produz parece fornecer uma maneira simples de medir a força de resposta de Skinner. Por isso, o dado mais utilizado na psicologia operante é a taxa de resposta sustentada por uma programação VI. A taxa é geralmente medida pelo número de respostas que ocorrem ao longo de um período de minutos ou horas.

Outra maneira de reduzir a variabilidade é o feedback negativo. Um sistema de HVAC controlado termostático aquece quando a temperatura interna cai abaixo de um nível predefinido e esfria quando ele se eleva acima. Desta forma, reduz a variação na temperatura da casa que, de outra forma, ocorreria à medida que a temperatura externa varia. Qualquer tipo de feedback negativo reduzirá a variação na variável controlada. Infelizmente, quanto mais eficaz o feedback, menos a variação na variável dependente e menos podemos aprender sobre o próprio mecanismo de feedback. Um processo de feedback negativo perfeito é invisível.

O condicionamento operacional, por definição, envolve feedback desde que a recompensa recebida depende das respostas feitas. Quanto mais o organismo responde, mais recompensa obtém – sujeita às restrições de qualquer plano de reforço está em vigor. Este é um feedback positivo. Mas o procedimento de escolha operante mais estudado – cronograma simultâneo de intervalo variável – também envolve feedback negativo . Quando a escolha é entre dois horários de intervalo variável, quanto mais tempo é gasto em uma escolha, maior a probabilidade de pagamento para mudar para a outra. Portanto, não importa a diferença nas taxas de recompensa para as escolhas, o organismo nunca irá simplesmente se fixar em um. O resultado é uma relação muito regular entre a preferência de escolha e a remuneração relativa – a lei correspondente . (Para a história técnica completa, confira Comportamento Adaptativo e Aprendizagem, 2016)

À medida que a tecnologia avançava, essas duas coisas convergiam: o desejo de ordem, habilitado pela média e feedback negativo, e a idéia de Skinner de que a probabilidade de resposta é uma variável dependente apropriada. Os horários de intervalo variável, isoladamente ou em situações de duas opções, tornaram-se um tipo de dispositivo de medição. A taxa de resposta em VI é constante – não espera, pausa ou picos súbitos. Parecia oferecer uma maneira simples e direta de medir a probabilidade de resposta. A taxa de resposta como probabilidade de resposta à idéia teórica de taxa, de alguma forma equivalente à força de resposta, foi apenas um pequeno passo. A lei de correspondência passou a ser considerada como um princípio geral. Os pesquisadores começaram a vê-lo como subjacente não apenas a escolha de animais, mas o comportamento de escolha dos seres humanos em situações da vida real.

Teoria A força da resposta é uma construção teórica. Ele vai muito além da taxa de resposta ou de qualquer outra quantidade diretamente mensurável. Infelizmente, a maioria das pessoas pensa que eles sabem o que eles querem dizer com "força". A tradição skinneriana tornou difícil ver que é necessário mais.

Um marco do estudo de 1961 de George Reynolds ilustra o problema (embora George nunca tenha visto isso dessa maneira). Aqui está uma versão simplificada: Imagine duas condições experimentais e dois pombos idênticos. Cada condição é executada para várias sessões diárias. Na condição A, o pombo A pica uma chave vermelha para recompensa de alimentos entregue no cronograma de um VI-30. Na condição B, o pombo B pica uma chave verde para a recompensa alimentar entregue no horário do VI 15. Uma vez que ambas as taxas de alimentos são relativamente altas, após uma longa exposição ao procedimento, os pombos estarão picando em uma taxa alta em ambos os casos: taxas de resposta – portanto, "pontos fortes" – serão aproximadamente iguais. Agora, mude o procedimento para ambos os pombos. Em vez de uma única programação, dois horários alternam, durante um minuto ou mais, cada uma, durante uma sessão experimental de uma hora. A segunda programação adicionada é a mesma para ambos os pombos: VI 15 s, sinalizado por uma tecla amarela (alternando dois horários sinalizados dessa maneira é chamado de programação múltipla). Assim, o pombo A está em um mult VI 30 VI 15 (estímulos vermelho e amarelo) e pombo B em um mult VI 15 VI 15 (estímulos verde e amarelo). Em resumo, as duas condições experimentais são (cores de estímulo em ()):

Experiência A: VI 30 (Vermelho); mult VI 30 (Vermelho) VI 15 (Amarelo)

Experiência B: VI 15 (Verde); mult VI 15 (Verde) VI 15 (Amarelo)

Agora, veja a segunda condição para cada pombo. Sem surpresa, a taxa de resposta de B em verde não vai mudar. Tudo isso que mudou para ele é a cor da chave – de verde todo o tempo para verde e amarelo alternando, ambos com a mesma recompensa. Mas a taxa de resposta de A em vermelho, o estímulo VI 30, ficará muito deprimido e a taxa de resposta em amarelo para A será consideravelmente maior do que a taxa de resposta amarela de B, mesmo que o esquema do VI 15 seja igual em ambos. O efeito na resposta no estímulo amarelo pelo pombo A, um aumento na taxa de resposta quando uma determinada programação é alternada com uma mais enxuta, é chamado de contraste comportamental positivo e a diminuição da taxa na programação mais enxuta para o pombo A é o contraste negativo.

Respondendo por E B na presença dos estímulos vermelho e verde na primeira condição é muito o mesmo e, portanto, deve ser a força das duas respostas. Mas o efeito muito diferente de adicionar o estímulo amarelo alternativo, pago na programação mais rica, nos dois animais na segunda condição mostra que não é.

O consenso de que a taxa de resposta é uma medida adequada da "força" de uma resposta operante é errado. A taxa constante mantida pelos horários VI é enganosa. Parece uma simples medida de força. Por causa da ênfase de Skinner na ordem, porque a programação de intervalo variável simultânea com resposta média e feedback aumentou, e porque era fácil equiparar a probabilidade de resposta com a taxa de resposta, a idéia tomou a raiz. No entanto, mesmo na década de 1950, era bem sabido que a taxa de resposta pode ser manipulada, por exemplo, por meio de programas denominados de reforço diferencial de baixa velocidade (DRL).

Conclusão Dois fatores – o método de organismo único de Skinner e o desejo de ordem – conspiraram para dar à taxa de resposta um papel primário no condicionamento operante. A taxa foi considerada como uma medida de força de resposta. Mas um terceiro fator, o desdém pela teoria, significava que essa ligação nunca foi muito examinada. É claro que a taxa de resposta não é igual à força de resposta. De fato, o conceito de força está mal definido. Portanto, a ênfase do campo na taxa de resposta como variável dependente é provavelmente um erro. Se a idéia de força é sobreviver à queda da taxa como sua melhor medida, é necessária algo mais: uma teoria sobre os fatores que controlam uma resposta operante. Mas, como Skinner tinha proclamado com sucesso que as teorias do aprendizado não são necessárias , uma teoria adequada não foi divulgada há muitos anos (ver The New Behaviorism, 2014, para mais informações sobre a história da teoria skinneriana).