O programa de computador bate o campeão europeu Go

Em 1997, o computador de xadrez Deep Blue bateu o campeão mundial de xadrez Gary Kasparov em uma partida de seis jogos. Este resultado foi sentiu como um grande golpe para o orgulho humano – o xadrez tinha sido visto como um símbolo do intelecto humano único. Licking herbs, human kind procurou outro jogo para substituir o xadrez como símbolo de inteligência. Escolheu o jogo asiático de Go.

Go é jogado em uma placa de 19 x 19, entre dois jogadores (preto e branco). Uma vez colocado, uma peça (chamada "pedra") não pode ser movida de novo. O objetivo do jogo é ganhar mais território do que o adversário, cercando suas pedras. As regras são simples, mas o jogo é devilishly complexo, muito mais do que o xadrez (Gobet, de Voogt, & Retschitzki, 2004): existem 10 172 posições número possíveis (uma seguida por 172 zeros), muito mais que o número de átomos no universo conhecido. Em comparação, o número de posições no xadrez é "apenas" 10 43 .

Comparado com outros jogos de tabuleiro, como xadrez e damas, Go é mais estratégico e menos tático. Ou seja, planos de longo prazo dominam combinações de curto prazo. Isto é devido ao tamanho grande da placa Go e ao fato de que as pedras não se movem uma vez colocadas no quadro. Uma conseqüência é que o jogo aborda aspectos da cognição onde os seres humanos são fortes (reconhecimento de padrões, intuição, planejamento) e onde os computadores tradicionalmente lutaram. Em contrapartida, o jogo não se adequa às forças tradicionais dos computadores, principalmente a capacidade de procurar sistematicamente um grande número de estados pela força bruta.

Assim, enquanto os computadores têm sido mais fortes do que os humanos em jogos como xadrez, Othello e damas, eles tinham sido bastante pobres em Go, sendo incapaz de progredir além do nível de um bom amador. Um grande avanço ocorreu em 2006, quando os programas de computador aumentaram drasticamente sua força com uma técnica simples, mas surpreendente, chamada de pesquisa de árvores de Monte Carlo (Lee et al., 2009). Em vez de procurar a árvore de possíveis movimentos de forma sistemática, esse método gera jogos escolhendo aleatoriamente movimentos para os dois jogadores. A intuição é que, se um movimento na posição atual for melhor do que as alternativas, esse movimento deve levar a melhores resultados em média, quando muitos desses jogos são jogados, mesmo que cada movimento individual seja selecionado aleatoriamente. Com variações mais sofisticadas desta técnica, a escolha dos movimentos é tendenciosa pela experiência anterior.

Avanço com AlphaGo

No final de janeiro passado, a revista Nature relatou outro avanço (Silver et al., 2016). O programa AphaGo, desenvolvido pelo Google DeepMind, não só destruiu todos os outros melhores programas Go (99,8% das vitórias), mas também derrotou Fan Hui, um jogador profissional Go que venceu o Campeonato Europeu três vezes. O resultado foi brutalmente claro: cinco a zero.

O AlphaGo usa uma combinação de três técnicas de inteligência artificial: pesquisa de árvores de Monte Carlo, que acabamos de discutir, aprendizagem profunda e aprendizado de reforço. A Aprendizagem Profunda consiste em ajustar os pesos de uma rede neural artificial, usando técnicas recentemente desenvolvidas (LeCun, Bengio e Hinton, 2015). AlphaGo usa duas redes: a primeira sugere um movimento em uma determinada posição e a segunda avalia a posição como um todo. O programa primeiro aprende digitando um grande número de jogos mestres (30 milhões de posições). Então, ele joga um grande número de jogos contra si mesmo, ajustando os pesos de suas redes usando uma técnica chamada aprendizagem de reforço. Esta técnica utiliza o feedback obtido pelo resultado dos jogos para aprender mais. O aprendizado de reforço já havia sido usado com sucesso para produzir programas de alto nível em vários jogos de tabuleiro, incluindo gamão (Tesauro, 1995). Todo o aprendizado é computacionalmente muito caro e requer computadores poderosos.

Ao jogar um oponente, o AlphaGo usa suas duas redes para avaliar posições e compartilhar a seleção de movimentos, de modo que ele selecione os movimentos que resultaram úteis no passado. O programa faz algum planejamento, com a busca de árvores de Monte Carlo. A beleza desta abordagem é que AlphaGo usa apenas o conhecimento que aprendeu a si mesmo. Isso contrasta, por exemplo, com o Deep Blue, que usa muitos conhecimentos codificados manualmente por seus programadores (Campbell, Hoane e Hsu, 2002).

Lições para conhecimentos humanos

O que a AlphaGo nos conta sobre conhecimentos humanos? Quais são as implicações para o mundo de Go? Um primeiro resultado importante é que o AlphaGo confirma a importância do reconhecimento e intuição de padrões nos jogos de tabuleiro e presumivelmente em outros domínios de especialização. Usando apenas sua capacidade de reconhecimento de padrões, e sem usar qualquer pesquisa, o AlphaGo ainda supera a maioria dos programas de computador. Isso não é surpreendente, dado que Go é um jogo estratégico, mas a maneira pela qual AlphaGo é capaz de capturar esse aspecto da experiência humana tão bem é impressionante. A importância do reconhecimento de padrões em peritos humanos tem sido amplamente enfatizada por vários pesquisadores (por exemplo, Adriaan De Groot, Herbert A. Simon e Hubert Dreyfus), mesmo quando houve diferenças importantes nas especificidades de suas teorias (para detalhes, veja Gobet & Chassy, ​​2009).

Em contrapartida, este projeto não conta muito sobre planejamento e busca humana. A pesquisa de árvores de Monte Carlo não é muito humana: até os especialistas simplesmente não geram milhares de (pseudo-) jogos aleatórios, coletando estatísticas no caminho. Eles realizam uma busca mais sutil e seletiva, onde o reconhecimento de padrões está entrelaçado com a busca avançada (Gobet, 1997). Enquanto o Alpha-Go usa seu conhecimento para pesquisar seletivamente, ele faz muito menos do que os humanos.

Os computadores mudaram a forma como o xadrez é jogado no nível superior. Eles abriram novas avenidas conceituais e expostos limites chocantes na peça especializada. Como conseqüência de jogar contra computadores, usar computadores para praticar e usar bancos de dados computadorizados, a qualidade do jogo melhorou notavelmente nas últimas duas décadas. As variações de abertura que foram pensadas irreversíveis são agora empregadas, e outras que foram consideradas satisfatórias foram refutadas por análises computacionais. Outra conseqüência, desta vez, uma indesejada, é o surgimento de trapaças usando computadores. Será interessante ver se ocorrerão desenvolvimentos similares com o Go.

É altamente improvável que a aceitação universal da inteligência artificial seja superior ao intelecto humano. As pessoas desenvolverão novos jogos e atividades na tentativa de preservar a ascendência humana em relação aos computadores. Isso levará a melhores técnicas de informática. Essa corrida de armamentos entre a inteligência humana e a inteligência informática levará a uma maior compreensão da inteligência humana e artificial, em benefício de ambos.

O próximo desafio

Enquanto o desempenho da AlphaGo é notável, é preciso lembrar que não bateu o campeão mundial (ainda). Embora campeão europeu, Fan Hui é "apenas" um profissional de 2 dan, e, portanto, claramente mais fraco do que o profissional de nível superior Go, que está classificado como 9 dan. Isto é aproximadamente equivalente à diferença, no xadrez, entre um Mestre e um Grande Mestre de classe mundial. Em outras palavras, um profissional de 9-dan provavelmente ganhará mais de 95% do tempo contra um profissional de 2-dan.

Então, qual é a verdadeira força do AlphaGo? Devemos saber em breve, já que uma partida foi organizada entre AlphaGo e Lee Se-dol, um profissional sul-coreano de 9-dan considerado um dos melhores jogadores do mundo. Enquanto o time por trás do AlphaGo está otimista de que ganhará, os mestres de Go acreditarão que a mente humana prevalecerá. Jonathan Schaeffer, cientista da computação, contribuiu para vários avanços em jogos de computador: "Pense em AlphaGo como uma criança prodígio. De repente, aprendeu a jogar muito bem, vá muito rápido. Mas não tem muita experiência. O que vimos no xadrez e damas é que a experiência conta muito. "

Fernand Gobet e Morgan Ereku

Referências

Campbell, M., Hoane, AJ, & Hsu, FH (2002). Azul profundo. Inteligência Artificial, 134, 57-83.

Gobet, F. (1997). Uma teoria de reconhecimento de padrões de pesquisa na resolução de problemas de especialistas. Pensando e Raciocínio, 3, 291-313.

Gobet, F., & Chassy, ​​P. (2009). Experiência e intuição: um conto de três teorias. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, & Retschitzki, J. (2004). Lembre-se. Hove, UK: Psychology Press.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Aprendizagem profunda. Nature, 521, 436-444.

Lee, C.-S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et ai. (2009). A inteligência computacional do MoGo revelou nos torneios Go do computador de Taiwan. Transações IEEE sobre Inteligência Computacional e AI em Jogos, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Dominando o jogo de Go com redes neves profundas e pesquisa de árvores. Nature, 529, 484-489.

Tesauro, G. (1995). Aprendizagem de diferença temporal e TD-Gammon. Comunicações do ACM, 38, 58-68.