Novo método de IA ganha prêmio NeurIPS cobiçado

A rede ODE é um modelo inovador de rede neural profunda.

pixabay/geralt

Fonte: pixabay / geralt

Avanços recentes em inteligência artificial (IA) são em grande parte devidos ao aprendizado profundo, uma técnica de aprendizado de máquina que permite que um computador aprenda a partir de dados inseridos em várias camadas de processamento, em vez de fugir da codificação explícita. A maioria dos modelos de aprendizagem profunda são redes neurais artificiais com conceitos arquitetônicos inspirados de alguma forma pelos neurônios biológicos do cérebro humano. No mês passado, na conferência NeurIPS, uma equipe de pesquisadores de IA da Universidade de Toronto e do Instituto de Vetores de Toronto, Canadá, ganhou um “Prêmio de Melhor Artigo” por “Equações Diferenciais Ordinárias Neurais” – apenas quatro trabalhos selecionados do muitos milhares de artigos científicos submetidos a uma das maiores conferências focadas em inteligência artificial.

Treinar uma rede neural profunda com muitas camadas é muito mais difícil do que uma arquitetura superficial que contém uma ou duas camadas de computação. Um dos desafios do treinamento baseado em gradiente de redes neurais supervisionadas profundas é que, com mais camadas de computação, é mais difícil chegar a uma boa generalização à medida que a degradação ocorre. Kaiming Ele e sua equipe na Microsoft Research abordaram o problema da degradação reformulando as camadas como aprendendo funções residuais com referência às entradas da camada. As redes residuais funcionam definindo uma seqüência discreta de transformações finitas. Os pesquisadores descobriram que suas redes residuais poderiam ganhar precisão com maior profundidade de rede e que também eram mais fáceis de otimizar.

No entanto, essa abordagem pode se mostrar problemática para sistemas de IA, onde a entrada de dados ocorre de forma aleatória, em vez de intervalos discretos. A arquitetura tradicional de séries temporais de redes neurais recorrentes requer intervalos discretos para entrada de dados. Tome automóveis, por exemplo. Um veículo que funcione bem normalmente pode visitar o revendedor para manutenção programada regularmente. Mas o que acontece quando há um acidente de carro, um recall ou um mau funcionamento inesperado? Na vida real, os pontos de dados geralmente ocorrem em momentos aleatórios – os dados adequados a intervalos discretos podem contribuir para uma precisão menor.

A equipe de pesquisa de IA de David Duvenaud, Jesse Bettencourt, Ricky TQ Chen e Yulia Rubanova lançaram um novo tipo de modelo de rede neural profunda escalável que é tanto eficiente quanto eficiente em termos de memória. Em vez de usar a seqüência discreta de camadas de transformações finitas, eles aplicaram princípios de cálculo para criar um modelo de profundidade contínua composto por uma Rede ODE (Equação Diferencial Ordinária).

A equipe de pesquisa parametrizou a “dinâmica contínua de unidades ocultas usando uma equação diferencial ordinária (ODE) especificada por uma rede neural”. A Rede ODE cria saída usando um solucionador de equação diferencial de caixa preta que usa o método adjunto para calcular gradientes.

Essa abordagem estrutural pode ter várias vantagens. Seu modelo não armazena as quantidades intermediárias do passe para frente, de modo que é eficiente em termos de custo quando se trata de memória. A solução também é eficiente em parâmetros. Para tarefas de aprendizado supervisionadas, menos parâmetros são necessários porque os parâmetros das camadas próximas são automaticamente unidos quando a dinâmica da unidade oculta é parametrizada como uma função contínua do tempo. O modelo ODE Network é um modelo contínuo de séries temporais projetado para incorporar o tempo aleatório dos dados de entrada.

Com esses benefícios, a Rede ODE tem o potencial de perturbar redes neurais profundas em muitas áreas onde eventos de séries temporais podem não ocorrer em intervalos regulares, como monitoramento de pacientes, fabricação, medicina personalizada, pesquisa científica, veículos autônomos, farmacogenômica. , sistemas de rastreamento de ativos, negociação financeira, atendimento ao cliente, business intelligence e muitas outras aplicações. É um novo modelo para redes neurais profundas que tem o potencial de levar a inteligência artificial ao próximo nível no futuro.

Referências

Chen, Ricky TQ, Rubanova, Julia, Bettencourt, Jesse, Duvenaud, David. “Equações Diferenciais Ordinárias Neurais”. ArXiv: 1806.07366 . 19 de junho de 2018.

Bengio, Yoshua. “Aprendendo Arquiteturas Profundas para IA”. Fundamentos e Tendências em Aprendizado de Máquina . Vol.2, no.1 (2009).

Ele, Kaiming, Zhang, Xiangyu, Ren Shaoquing, Sol, Jian. “Deep Residual Learning para Reconhecimento de Imagem.” ArXiv: 1512.03385v1. 10 de dezembro de 2015.