O AlphaZero é um programa de aprendizado de máquina desenvolvido pela DeepMind que adquiriu insights sobre o jogo de xadrez criativo por meio de aprendizagem profunda sem qualquer orientação humana. Agora é o xadrez mais forte, o xadrez japonês (shogi) e o jogador Go no mundo, batendo consistentemente os melhores jogadores humanos e os melhores motores de xadrez. Por que eu desejaria um feliz aniversário? Quero dizer, por que eu parabenizaria pelo seu nascimento? A resposta curta é que, recentemente, aprendi que o AlphaZero obteve insights durante outubro de 2017 e, assim, se tornou verdadeiramente inteligente, na minha opinião. Daí meu desejo de feliz aniversário tardio.
Meu uso do termo insight foi motivado pelo seguinte relato do New York Times em 26/12/18: “O mais enervante foi que AlphaZero parecia expressar uma visão. Ele tocou como nenhum computador, intuitivamente e lindamente, com um estilo romântico e ofensivo. Jogou gambits e correu riscos ”. O comando “define: insight” do Google retorna a seguinte definição principal: “a capacidade de obter uma compreensão precisa e profunda intuitiva de uma pessoa ou coisa”. Os sinônimos de insight incluem: intuição, percepção, percepção, discernimento, compreensão, compreensão e apreensão. , apreciação, perspicácia e astúcia. Uma definição secundária de insight é “um profundo entendimento de uma pessoa ou coisa”. Essas são qualidades de uma entidade verdadeiramente inteligente.
Matthew Sandler e Natasha Regan são ambos mestres do xadrez inglês. Eles escreveram um livro intitulado Game Changer , publicado pela New in Chess , no qual eles analisam os insights sobre os jogos de xadrez e Go, que o AlphaZero desenvolveu sozinho sem qualquer orientação humana. Eles disseram que AlphaZero descobriu aberturas e estratégias bem conhecidas enquanto aprendia a jogar xadrez por si só. Eles disseram que também desenvolveram novas e impressionantes estratégias criativas de longo prazo, porque não foram constrangidas pela sabedoria convencional transmitida por programadores humanos. Aqui temos grandes mestres admirando insights que AlphaZero alcançou por conta própria. Pode-se argumentar que o AlphaZero foi capaz de alcançar novos insights precisamente porque a sabedoria humana convencional foi retida, liberando assim AlphaZero do preconceito humano. A capacidade de obter insight é uma característica humana verdadeiramente inteligente. O “nascimento” de tal inteligência revolucionária e notável merece reconhecimento respeitoso. Por isso, desejo ao AlphaZero um feliz aniversário tardio!
Generalização é um teste de validade. A generalização tem sido um grande problema para os tradicionais programas de Inteligência Artificial (AI) baseados em regras. Suas conquistas foram limitadas a tarefas muito específicas. Os programas baseados em regras são altamente especializados e só podem fazer o que foram especificamente programados para fazer. Eles não se generalizam para tarefas semelhantes relacionadas porque não podem aprender sozinhos. Eles esperam que os humanos lhes forneçam novas regras adicionais.
Por ter aprendido xadrez, shogi e go, o AlphaZero demonstrou que pode descobrir novos conhecimentos por meio do aprendizado por reforço. Essa capacidade de generalizar aprendendo sozinha é uma conquista notável. Aprender por si só é uma característica da verdadeira inteligência. Essa habilidade estabelece a superioridade da IA baseada no cérebro sobre a IA baseada em regras. Mais detalhes estão disponíveis.
Outro projeto do DeepMind, um programa chamado AlphaFold, usa a abordagem AI de rede neural baseada no cérebro de aprendizagem profunda para resolver um problema extraordinariamente complexo que até agora tem escapado aos cientistas. Refiro-me a entender como as proteínas se dobram. Como as proteínas se dobram dentro do corpo em estruturas tridimensionais determina como elas se ligam a outras moléculas, incluindo novos medicamentos. Esse conhecimento é a chave para entender e prever os efeitos que os novos medicamentos terão. A AlphaFold está agora progredindo na compreensão desse processo.
O restante deste blog contrapõe modelos psicológicos baseados na mente com modelos psicológicos baseados no cérebro, antes de fornecer alguns princípios básicos de rede que nos permitem entender melhor como funcionam as máquinas conectistas de aprendizado, como AlphaZero e AlphaFold.
A psicologia começou como um ramo da filosofia natural, onde as explicações baseadas na mente do comportamento humano eram derivadas da introspecção. Psicólogos cognitivos tradicionais continuaram essa prática com sua visão de que as pessoas aprendem e se comportam porque a mente segue regras que governam a manipulação de símbolos. A evidência de que esta teoria está errada pode ser obtida perguntando aos especialistas sobre as regras que eles seguem quando trabalham. Especialistas geralmente não reconhecem ou relatam que seguem regras de qualquer tipo enquanto trabalham. Eles podem ter seguido as regras quando eram novatos, mas foram além da regra quando se tornaram especialistas. Mas muitos psicólogos cognitivos continuam a agir como se as pessoas sempre seguissem regras quando pensam e se comportam. Agir como se algo fosse verdade quando não é, pode ser profissionalmente conveniente, mas isso não tem sido muito bem sucedido, como veremos a seguir.
A abordagem de manipulação de símbolos baseada em regras caracterizou os esforços iniciais para criar inteligência artificial. Por exemplo, os computadores já foram programados com muitas regras para jogar xadrez, mas nunca se saíram muito bem. Computadores foram programados com muitas regras para identificar pessoas a partir de fotografias ou vídeos, mas eles se saíram ainda menos e não puderam fazê-lo em tempo real. As limitações da abordagem baseada em regras são manifestas, mas muitos psicólogos cognitivos continuam a explicar o comportamento humano em termos de regras e acompanhamento de regras, porque sempre o fizeram e porque ele apoia a metáfora do computador. Eles entendem que o cérebro age como um hardware de computador e a mente opera como um software de computador no qual as regras são como programas de computador que governam como as pessoas pensam, sentem e se comportam.
Esses mesmos psicólogos cognitivos admiram as conquistas de sistemas de IA de aprendizagem profunda como AlphaZero, mas não confiam neles porque não conseguem entender como pensam porque não geram símbolos ou formam e seguem regras como normalmente os entendemos. Portanto, o AlphaZero não pode se comunicar com esses psicólogos cognitivos de maneiras que eles entendem. O problema aqui é que AlphaZero aprende como o cérebro faz, não como a mente é dita. Uma nova maneira de entender como o AlphaZero pensa que é relevante para entender como o cérebro funciona é necessária. Essa nova abordagem também pode ser usada para entender a psicologia cognitiva baseada em modelos de redes neurais.
Os modelos de rede neural conexionista, também conhecidos como redes neurais, aprendizado profundo e inteligência de máquina, fundamentam e explicam como o Alpha Zero funciona. Esses modelos adotam uma abordagem baseada no cérebro para explicar a psicologia cognitiva. Eles foram seriamente estudados desde que McClelland e Rumelhart e Rumelhart e McClelland publicaram seus trabalhos seminais em 1986. Em 2014, publiquei uma abordagem explicativa da rede neural conexionista baseada no cérebro para a psicologia em meu livro intitulado Neurociência Cognitiva e Psicoterapia: Princípios de Rede para um Unificado Teoria Reflete os desenvolvimentos nas décadas seguintes desde 1986.
Os modelos de rede neural consistem em três ou mais camadas de nós de processamento interconectados que possuem muitas das mesmas propriedades funcionais que os neurônios reais. Por exemplo, cada neurônio artificial recebe insumos de muitos outros neurônios artificiais, exatamente como os neurônios reais. Cada neurônio artificial soma essas entradas e gera uma saída se a soma de suas entradas exceder uma quantidade limite como os neurônios reais.
Neurônios artificiais são conectados uns aos outros por sinapses simuladas chamadas pesos de conexão. Esses pesos são inicialmente definidos para pequenos valores aleatórios. O aprendizado e a memória ocorrem ajustando-se gradualmente esses pesos aos testes de aprendizado. O resultado final é uma rede na qual os nós de processamento são interconectados com pesos ideais para as tarefas em consideração. Os pesos de conexão são tão centrais para a funcionalidade dos modelos de redes neurais conexionistas que o termo connectionist é frequentemente omitido. Os sistemas de redes neurais conexionistas podem agir como se estivessem seguindo regras, mas nunca formulam ou seguem regras como normalmente as entendemos e certamente não geram símbolos. Detalhes adicionais são fornecidos na próxima seção.
Acho que a melhor maneira de entender os sistemas de redes neurais usados pelo AlphaZero e outras inteligências artificiais de aprendizagem profunda é entender os princípios que os governam. Esses princípios de rede também podem ser entendidos como propriedades de rede neural. Eu agora discuto quatro desses princípios / propriedades. Existem outros, mas estes quatro são fundamentais e devem começar. Veja Tryon (2012, 2014) para mais informações.
A arquitetura neural do cérebro real é importante para sua função. Por exemplo, o cerebelo tem um circuito especial que permite controlar rapidamente os músculos para que possamos andar, correr e praticar esportes. Da mesma forma, a arquitetura de redes neurais artificiais é importante para o modo como elas funcionam. Por exemplo, redes neurais que possuem apenas duas camadas, chamadas Perceptrons, não podem resolver certos problemas lógicos. Redes com três ou mais camadas podem resolver todos os problemas lógicos. Existem provas matemáticas de que as redes neurais multicamadas podem potencialmente resolver todos os tipos de problemas. Veja Hornik, Stinchcombe e White (1989, 1990) para prova matemática dessa afirmação.
Ativações geradas por neurônios artificiais se espalham através de redes neurais artificiais de uma maneira descrita abaixo, que reflete como as ativações geradas por neurônios reais se formam em cascata através de redes cerebrais reais. A maior parte do processamento cerebral ocorre inconscientemente. A famosa analogia do iceberg reflete com precisão esses eventos. Os noventa por cento de um iceberg que está debaixo d’água representam e são proporcionais ao processamento cerebral inconsciente. Os dez por cento de um iceberg que está acima da água representam e são proporcionais ao processamento cerebral consciente. Veja Cohen, Dunbar e McClelland (1990) para mais detalhes.
A figura a seguir ilustra como a cascata de rede funciona. É uma rede muito simples, mas precisa ser para caber nesta página. A camada superior de três círculos simula três neurônios de entrada. Eles podem ser entendidos como neurônios sensoriais. O número “1” dentro do círculo indica que o neurônio simulado está ativo. O número “0” indica que o neurônio simulado está inativo. Juntos, eles definem as três entradas para este sistema como: 1, 0, 1.
Rede Neural Ilustrativa
Fonte: Warren W. Tryon
O status “on”, “off” dos neurônios simulados nas próximas duas camadas é calculado em vez de atribuído. A segunda camada de três conjuntos de três caixas simula sinapses que conectam os neurônios simulados na camada de entrada superior, com os três neurônios simulados adicionais na terceira camada. O conjunto esquerdo de três caixas na segunda linha representa as sinapses simuladas que conectam o neurônio simulado da mão esquerda na linha superior com todos os três neurônios simulados na terceira linha. O conjunto intermediário de três caixas na segunda linha conecta o neurônio simulado médio na linha superior com todos os três neurônios simulados na terceira linha. O conjunto do lado direito de três caixas na segunda linha representa as sinapses simuladas que conectam o neurônio simulado da mão direita na linha superior com todos os três neurônios simulados na terceira linha. Entradas positivas simulam excitação. Entradas negativas simulam a inibição. Esses valores são chamados de pesos de conexão porque especificam a força da conexão entre dois neurônios simulados. Os valores atuais podem ser pensados de duas maneiras. Uma possibilidade é que eles sejam os primeiros valores atribuídos aleatoriamente na inicialização. Outra possibilidade é que eles reflitam o estado da rede em uma etapa de processamento arbitrário.
Os estados on = 1, off = 0 dos três neurônios simulados na terceira camada são calculados em vez de atribuídos. Agora detalho os cálculos relevantes. Observe que cada um dos três neurônios simulados na terceira linha possui três entradas; um de cada um dos neurônios simulados na primeira linha. Essas entradas são iguais ao estado do neurônio emissor, 1 se ativo, 0 se inativo, multiplicado pelo peso da conexão da seguinte maneira. Entradas para o neurônio esquerdo na terceira camada igual a 1 (0,1) + 0 (-2,0) + 1 (0,3) = 0,4. Esse resultado é comparado a um limite que, neste caso, é zero, mas poderia ser algum outro valor. Se a soma das entradas exceder zero, é positivo, como é neste caso, então o neurônio simulado receptor, o da esquerda neste caso, torna-se ativo ou permanece ativo se estiver ativo anteriormente, como indicado pelo 1 dentro o círculo que representa a mão esquerda simulou o neurônio na terceira camada. Como zero vezes qualquer coisa é zero, a soma de várias entradas é igual à soma dos pesos de conexão associados aos neurônios de envio simulados ativos.
As entradas para o neurônio central simulado na terceira linha são 1 (0,3) + 0 (0,1) + 1 (0,2) = 0,5, ativando positivamente esse neurônio simulado, conforme indicado pelo número 1 em seu círculo. As entradas para o neurônio simulado à direita na terceira linha são 1 (-. 1) + 0 (.3) + 1 (-. 3) = -.4 que sendo negativo desativa este neurônio simulado, desliga se anteriormente ligado, conforme indicado pelo número 0 no seu círculo.
O estado dos dois neurônios computados simulados na quinta linha é controlado pelos estados computados dos três neurônios na terceira linha e pelas sinapses simuladas, pesos de conexão, nas caixas na quarta linha. O neurônio simulado da mão esquerda na quinta linha torna-se inativo porque a soma de suas entradas de 1 (-, 2) + 1 (-. 2) + 0 (0,4) = -4 é negativa e, portanto, abaixo do limite de zero . O neurônio simulado à direita na quinta linha torna-se ativo porque a soma de suas entradas de 1 (0,2) + 1 (0,1) + 0 (0,3) = 0,3 é positiva e, portanto, excede o limiar de zero.
A ativação de neurônios simulados na camada superior, de entrada, é dito que ocorre em cascata através das sinapses simuladas aos neurônios simulados remanescentes. Este processo é automático e determinístico.
A rede sempre calculará o mesmo resultado se tudo ficar como está. Nenhum desenvolvimento ocorrerá. A rede calculará um resultado diferente se os valores de entrada forem alterados. Mas a rede não aprenderá a fazer melhor se os pesos de conexão permanecerem os mesmos. Aprendizagem requer que os pesos de conexão sejam alterados. A quantidade de mudanças é determinada por equações que simulam os efeitos dos mecanismos biológicos da plasticidade sináptica dependentes da experiência que modificam as sinapses reais entre os neurônios reais quando aprendemos e formamos memórias.
Alterar os pesos de conexão significa que a rede calcula uma nova resposta para os valores de entrada de estímulo antigos. Os pesos de conexão são alterados de acordo com os métodos de gradiente descendente que essencialmente garantem uma resposta de rede gradativamente melhor.
Eu gostaria de fornecer três pontos para levar para casa aqui. O primeiro ponto que desejo enfatizar é que a aprendizagem e a memória são fundamentais para toda a psicologia, porque a psicologia não existiria se não pudéssemos aprender e formar memórias através da modificação sináptica. O segundo ponto que desejo enfatizar é que todos os aspectos da nossa psicologia estão contidos no que Seung (2012) chama de nosso conectoma ; a coleção completa de nossas sinapses. O terceiro ponto que desejo enfatizar é que os mecanismos de plasticidade dependentes da experiência permitem que nossas experiências modifiquem fisicamente nossos cérebros e, portanto, alterem as maneiras como pensamos, sentimos e nos comportamos. Não há nada mental ou mágico sobre esse processo.
Psicólogos comportamentais como BF Skinner explicaram que o comportamento é fortalecido, torna-se mais provável, através do reforço por conseqüências positivas ou negativas que acompanham o comportamento. Ele não conseguia explicar os processos físicos da mudança sináptica que permitiam que o comportamento mudasse, de modo que ele simplesmente reconheceu a mudança alegando que o rato condicionado sobreviveu como um rato modificado. Ele percebeu que a experiência muda o cérebro, mas não poderia ser mais informativa, porque a biologia da aprendizagem e da memória estava em sua infância na época.
A aprendizagem de reforço é agora muito melhor compreendida. É um processo incremental que não faz sentido a partir de uma perspectiva cognitiva baseada na mente, na qual a aprendizagem e a memória envolvem seguir regras para manipular símbolos. Símbolos não são gerados um pouco de cada vez. Também não faz sentido que os símbolos possam mudar um pouco de cada vez ou que o seu significado possa ser modificado um pouco de cada vez. Portanto, parecia que o aprendizado por reforço não conseguia explicar como funciona a cognição.
Mas, o aprendizado por reforço faz muito sentido a partir da perspectiva da rede neural conexionista baseada no cérebro delineada acima na qual os pesos de conexão entre os neurônios começam em níveis aleatórios e são gradualmente ajustados através do aprendizado para que converjam para valores ideais através de um processo incremental de mudança. conhecido como descida de gradiente.
AlphaZero desenvolveu suas habilidades cognitivas superiores através do processo incremental de aprendizagem de reforço. Essa conquista mostra que os psicólogos cognitivos tradicionais estavam errados ao desconsiderar o aprendizado por reforço como uma explicação válida para o desenvolvimento de processos cognitivos.
Aprendizagem por reforço é uma forma de evolução porque depende criticamente da variação e seleção . Sucessos e fracassos moldam conjuntamente o comportamento futuro. Skinner sustentou consistentemente que o comportamento animal e humano evolui ontogeneticamente (ao longo da vida) e filogeneticamente (ao longo de muitas gerações). O aprendizado por reforço é uma maneira eficaz de os sistemas AI de conexionismo aprenderem com a experiência por conta própria. A aprendizagem de reforço resolve efetivamente problemas que são muito complexos para as soluções de programa. Por exemplo, é o método usado para ensinar carros a dirigirem-se.
AlphaZero é uma inteligência super artificial baseada no cérebro que é capaz de discernimento, tornando-a muito mais humana do que as máquinas tradicionais de inteligência artificial. Pode generalizar seu aprendizado de maneiras que as inteligências artificiais tradicionais baseadas em regras não podem. Ele ajusta rapidamente suas sinapses simuladas através do aprendizado por reforço. Não gera símbolos ou formula e segue regras como normalmente compreendido. Portanto, as inteligências de redes neurais, como AlphaZero e AlphaFold, não podem ajudar os psicólogos cognitivos tradicionais a entender como elas funcionam. Uma orientação de rede neural é necessária para fazer isso. Os quatro princípios / propriedades da rede neural discutidos acima podem nos ajudar a entender melhor as inteligências artificiais como o AlphaZero.
O sucesso do AlphaZero nos diz pelo menos duas coisas. Primeiro , fornece uma prova empírica de que o aprendizado por reforço é suficiente para explicar a aquisição de habilidades cognitivas complexas, incluindo a capacidade de obter insight. Em segundo lugar , apoia a validade de modelos baseados no cérebro sobre modelos baseados na mente. Isso constitui uma grande mudança de paradigma na psicologia cognitiva.
Feliz Aniversário AlphaZero!
Referências
Cohen, JD, Dunbar, K. e McClelland, JL (1990). Sobre o controle de processos automáticos: Uma conta de processamento distribuída paralela do efeito Stroop. Psychological Review, 97, 332-361. doi: 10.1037 // 0033-295X.97.3.332
Hornik, K., Stinchcombe, M., & White, H. (1989). Redes de feed-forward multicamadas são aproximadores universais. Neural Networks, 2, 359-366. doi: 10.1016 / 0893-6080 (89) 90020-8
Hornik, K. Stinchcombe, M. & White, H. (1990). Aproximação universal de um mapeamento desconhecido e suas derivadas usando redes feedforward de multicamadas. Neural Networks, 3, 551-560. doi 10.1016 / 0893-6080 (90) 90005-6
McClelland, JL, Rumelhart, DE e o PDP Research Group (1986). Processamento paralelo distribuído: Explorações na microestrutura da cognição, vol. 2: modelos psicológicos e biológicos . Cambridge, MA: MIT Press.
Rumelhart, DE, McClelland, JL, e o PDP Research Group (1986). Processamento paralelo distribuído: Explorações na microestrutura da cognição, vol. 1: Fundações . Cambridge, MA: MIT Press.
Seung, S. (2012). Connectome: Como a fiação do cérebro nos faz quem somos . Boston: Houghton Mifflin Harcourt.
Tryon, WW (2012). Uma abordagem de rede conexionista à ciência psicológica: Princípios fundamentais e corolários. Review of General Psychology, 16 , 305-317. doi: 10.1037 / a0027135
Tryon, WW (2014). Neurociência cognitiva e psicoterapia: Princípios da Rede para uma Teoria Unificada . Nova York: Academic Press.