Ensinando o iPhone para dirigir

* Este artigo foi co-autor com o neuro-físico Michael Al de Los Alamos Michael Ham

Esta é uma história sobre uma singularidade que vem.

Para aqueles que não são familiares, o termo "singularidade" vem da astrofísica, onde é tecnicamente o ponto em um buraco negro onde a matéria é esmagada em um ponto minúsculo com massa infinita e sem volume; e metaforicamente um horizonte de eventos – um ponto além do qual não podemos ver.

Na década de 1950, o matemático John von Neumann, aplicou essa metáfora à tecnologia, escrevendo: "O progresso acelerado da tecnologia e as mudanças no modo da vida humana, que dá a aparência de abordar alguma singularidade essencial na história da raça além do qual os assuntos humanos, como os conhecemos, não poderiam continuar ".

Ray Kurzweil, autor de The Singularity is Near e o maior divulgador do termo, referiu a singularidade como o momento em que os computadores se tornam mais inteligentes que os humanos.

A singularidade que estamos descrevendo não é nada tão dramática, mas não menos revolucionária. Muito em breve, sem dúvida, nos próximos cinco anos, cruzaremos uma linha e os computadores começarão a ver melhor do que os humanos.

O que isto significa? Bem, agora os computadores estão presos em um universo digital – eles ainda não conseguem entender diretamente o nosso mundo analógico. É ainda necessário algum tipo de intervenção humana.

O Siri do iPhone é um exemplo. Ao conversar com o seu iPhone, Siri converte uma entrada analógica (sua voz) em uma resposta digital, mas o processo, embora incrível, ainda requer um ser humano.

Na visão de máquina, além de sistemas extremamente complicados como LIDAR – os principais olhos para o carro autônomo do Google – a capacidade de fazer sem envolvimento humano ainda não existe em qualquer capacidade realista.

Por realista, o que quero dizer é que o sistema LIDAR é a) muito caro b) bastante pesado. Em outras palavras, não cabe no seu iPhone.

Mas se o iPhone pudesse processar os dados da sua câmera com a mesma precisão que um ser humano, ele poderia dirigir seu carro. Em suma, esta é a singularidade visual.

E estamos nos aproximando. Tanto a detecção de placas como o reconhecimento facial são truques de visão por computador que já funcionam. Mas eles são algoritmos limitados – eles fazem uma coisa muito bem, mas não muitas coisas. Você não pode conectar seu iPhone no seu Roomba e dizer para limpar a sujeira, mas não o Legos.

Duas forças estão mudando isso e, como se vê, estas são as mesmas duas forças que conduzem todas as singularidades.

O primeiro é curvas exponenciais. Lei de Moore, Lei de Manteiga, etc. A mesma aceleração em cavalos de computação que impulsionou a descoberta de Siri está impulsionando a evolução da visão de máquina. A diferença é que a detecção de fala é um problema de megabyte, enquanto a visão de máquina é um problema de gigabyte. Mas, à medida que nossos computadores continuam a ser mais rápidos, esse problema desaparece completamente.

O segundo é o dado – uma massa crítica de dados.

Descobrimos que as maneiras mais fáceis de usar habilidades humanas é treiná-las. Por exemplo, foi o crescimento maciço em sites (ou seja, texto digitalizado) que permitiu que a singularidade de leitura de texto (o ponto em que as máquinas pudessem ler, bem como os seres humanos) ocorresse. Da mesma forma, grande quantidade de discurso digital digitalizado era necessário para alcançar a singularidade do discurso (também conhecido como Siri). Da mesma forma, sem Youtube e as 72 horas de vídeo carregadas a cada minuto, a próxima singularidade visual seria impossível.

Nessa linha, em junho passado, o Google conectou mais de 16.000 processadores de computador em uma visão de máquina gigante, aprendendo a rede neural e deixando-os soltos no YouTube. O resultado, como o New York Times indicou, foi a rede ensinada a reconhecer os gatos.

Por quê? Simples…. Há toneladas de vídeos de gatos no YouTube. Então, essa é uma das coisas que viu muito. Assim como uma criança aprende a reconhecer os objetos que vêem todos os dias.

A história do gato ficou por aí. O que a maioria das pessoas perdeu naquela peça do Times foi o fato de que o algoritmo de visão de máquina do Google funcionou muito melhor do que qualquer outra coisa que havia chegado – duplicando sua precisão (ao reconhecer objetos de uma lista de cerca de 20.000 itens) no caminho da detecção de gato.

Essa duplicação – bem, isso é um crescimento exponencial. Crescimento exponencial visível. O que significa é que, enquanto a visão de máquina esteve em uma curva exponencial por um tempo, está abaixo do joelho da curva, onde essas duplicações são na sua maioria invisíveis. O sucesso do Google coloca o arco muito mais próximo do joelho, significa que nos aproximamos cada vez mais da visão, como nós, humanos, sabemos disso.

De uma perspectiva diferente, quando estamos falando sobre a visão como nós conhecemos, nós estamos falando de um limiar de erro aceitável. O sistema visual humano é muito bom. Não é excelente, mas é mais do que suficiente para nos manter nos últimos 200 mil anos. Por esse motivo, é uma taxa de erro aceitável para nós.

Mas tem limites. A visão humana fica cansada. Em experimentos realizados no Laboratório Nacional de Los Alamos, quando os seres humanos foram convidados a realizar tarefas de reconhecimento de objetos, os experimentos foram mantidos abaixo de uma hora para não chegar ao ponto em que os sujeitos não poderiam mais se concentrar na tarefa. A máquina do Google funcionou por uma semana em milhões de imagens, muito além do ponto que qualquer humano poderia esperar para manter-se.

Uma vez que este limite é cruzado, o impacto sobre a sociedade será significativo.

Agora, por exemplo, temos o robô cirúrgico Da Vinci. Incrível invenção. Da Vinci ajuda os cirurgiões a realizar tudo, desde bypass cardíaco através de bypass gástrico com muito mais precisão e menos danos colaterais do que um humano sem ajuda. Mas o Da Vinci ainda precisa de envolvimento humano. A capacidade de realizar a cirurgia real é muito melhor do que nossas mãos, mas precisa emprestar nossos olhos. Mas quando a visão da máquina se torna melhor do que a visão humana – o cirurgião torna-se obsoleto.

Ok, não completamente obsoleto, ainda precisaremos de seus conhecimentos e habilidades de pesquisa. No entanto, a IBM enviou à escola de medicina Watson (o supercomputador de vencimento do Jeopardy). Está sendo carregado com a maior quantidade possível de dados médicos. Os resultados colocarão um dispositivo de diagnóstico incrivelmente poderoso na nuvem. Acople esse dispositivo de diagnóstico a uma visão de máquina melhor do que humana (e análise microfluídica de laboratório em um chip) e não são apenas cirurgiões que estão fora de um trabalho.

Médicos também. Neste momento, o erro de diagnóstico para médicos humanos é de 45%. Isso significa que se você for seu médico três vezes – as porcentagens dizem que ele cometeu algo errado em uma dessas visitas. Já temos o Watson, a tecnologia de laboratório on-a-chip também está a alguns anos (veja o Prêmio Qualcomm Tricorder X). A visão de máquina irá completar o triunvirato. Os resultados vão mudar os cuidados de saúde para sempre.

Verdadeiramente, não são apenas cuidados de saúde. Uma vez que as máquinas são capazes de interagir visualmente com o mundo, desbloquearemos uma variedade de tecnologias que agora são apenas ficção científica.

Então, Siri, dirija-me ao trabalho enquanto eu termino de ver os últimos vinte minutos de Terminator.