A pulga

Como fazer especialistas estúpidos.

Há uma velha piada sobre um cientista e uma pulga. O cientista colocou uma pulga na mesa, depois bateu a mão pesadamente sobre a mesa e a pulga pulou. O cientista em seguida arrancou duas das pernas da pulga e bateu de novo, e novamente a pulga pulou. O cientista arrancou mais duas pernas, repetiu o procedimento e novamente a pulga pulou.

O cientista arrancou as duas últimas pernas, bateu a mão na mesa e não saltou. Ele tentou de novo, bateu a mão pesadamente sobre a mesa, mas a pulga ainda não saltou.

O cientista anotou sua observação: “Quando uma pulga perde todas as suas pernas, ela se torna surda”.

Da mesma forma, se você pegar especialistas e colocá-los em uma situação onde eles têm que executar uma tarefa desconhecida (duas pernas), e remover qualquer contexto significativo (mais duas pernas), e aplicar um critério de avaliação inadequado (últimas duas pernas) , é um erro concluir que os especialistas são estúpidos.

Lembrei-me dessa piada quando li alguns relatos de como avançados sistemas de Inteligência Artificial estavam superando os especialistas. Por exemplo, na área da saúde, um diagnosticador que trata um paciente pode olhar para um raio-x em busca de sinais de pneumonia, mas os sistemas de IA podem detectar pneumonia em radiografias com mais precisão. Ou o médico pode estudar os resultados de uma bateria de exames de sangue, mas os sistemas de IA podem detectar problemas da Electronic Health Records mais precisamente do que os médicos.

O que falta nesta foto é que o médico também tem a chance de encontrar pacientes e observá-los – como estão se movimentando, especialmente em comparação à última consulta no consultório. Como eles estão respirando e assim por diante. Os sistemas de IA não têm uma maneira de levar essas observações em consideração e, portanto, os estudos comparativos filtram qualquer observação e exigem que os médicos baseiem seus julgamentos inteiramente nos registros objetivos. Isso é duas pernas de folga. Não é permitido aos médicos considerar qualquer história pessoal com os pacientes – mais duas pernas fora. Os médicos não podem consultar os membros da família – duas últimas. E assim os pesquisadores concluem que os médicos não são muito habilidosos – não tão precisos quanto a IA.

Eu acho que o que precisamos é de uma forma de os desenvolvedores de AI aprimorarem os julgamentos dos médicos, e não substituí-los. Aqui está um exemplo, um estudo de Wang et al. (2016). A taxa de erro dos patologistas foi de 3,5 por cento, enquanto a taxa de erro do modelo AI foi de apenas 2,9 por cento. Uma vitória clara para o modelo de IA parece. No entanto, a taxa de erro combinada, adicionando o patologista ao AI, foi de 0,5%.

 Wang et al. generated this graphic

Adicionando um patologista ao AI

Fonte: Wang et al. gerou este gráfico

Outro estudo (Rosenberg et al., 2018) descreve como um mecanismo alimentado por IA utilizou “inteligência de enxame” entre um grupo de radiologistas especialistas que revisaram radiografias de tórax para a presença de pneumonia. O enxame bateu o desempenho do radiologista padrão em 33 por cento, mas também superou o avançado sistema de aprendizagem profunda de Stanford em 22 por cento.

Siddiqui (2018) descreveu outro exemplo de parceria entre humanos e IA. Médicos experientes podem identificar um em mil crianças muito doentes, cerca de três quartos do tempo. A fim de aumentar a precisão da detecção e reduzir o número de crianças perdidas, alguns hospitais estão usando agora algoritmos quantitativos de seus registros eletrônicos de saúde para escolher quais febres são perigosas. Os algoritmos estão confiando inteiramente nos dados e são mais precisos que os médicos, pegando as infecções graves nove vezes em dez. No entanto, os algoritmos tiveram dez vezes os falsos alarmes. Um hospital do hospital da Filadélfia tomou como ponto de partida a lista de febres preocupantes com base em computador, mas depois os melhores médicos e enfermeiros para examinar as crianças antes de declarar que a infecção era mortal e levá-las ao hospital para medicações intravenosas. Suas equipes eliminaram os falsos alarmes do algoritmo com alta precisão. Além disso, os médicos e enfermeiras encontraram casos que o computador errou, elevando sua taxa de detecção de infecções mortais de 86,2% apenas pelo algoritmo, para 99,4% pelo algoritmo em combinação com a percepção humana.

Por isso, é fácil tornar os especialistas estúpidos. Mas é mais emocionante e gratificante colocar suas habilidades para trabalhar.

Agradeço a Lorenzo Barberis Canonico por trazer esses estudos à minha atenção.

Referências

Rosenberg, L., Willcox, G., Halabi, S., Lungren, M., Baltaxe, D. & Lyons, M. (2018). Inteligência de enxame artificial empregada para amplificar a precisão diagnóstica em radiologia. . IEMCON 2018 – 9ª Conferência Anual de Tecnologia da Informação, Eletrônica e Comunicação Móvel

Siddiqui, G. (2018). Por que os médicos rejeitam ferramentas que facilitam seu trabalho. Scientific American, Boletim de observações, 15 de outubro de 2018.

Wang, D., Khosla, A., Gargeya, R., Irshad, H., Beck, AH, (2016). Aprendizagem profunda para identificar o câncer de mama metastático. Papel não publicado.