MIT cria AI que prevê depressão do discurso

Rede neural inovadora detecta depressão da conversa.

Jacob Lund/Shutterstock

Fonte: Jacob Lund / Shutterstock

A depressão é um dos distúrbios mais comuns no mundo, que afeta a vida de mais de 300 milhões de pessoas e quase 800.000 suicídios por ano, segundo os dados de março de 2018 da Organização Mundial da Saúde. Diagnosticar a depressão pode ser um empreendimento complexo e desafiador. De acordo com a Clínica Mayo, os sintomas da depressão variam, e os médicos podem usar um exame físico, testes de laboratório, questionário de avaliação psiquiátrica e os critérios do DSM-5 da Associação Americana de Psiquiatria ( Manual Diagnóstico e Estatístico de Transtornos Mentais ) para determinar diagnóstico de depressão [1]. Para um profissional de saúde mental, fazer as perguntas certas e interpretar as respostas é um fator-chave no diagnóstico. Mas, e se um diagnóstico pudesse ser alcançado por meio de uma conversação natural versus um contexto de perguntas e respostas?

Uma inovadora equipe de pesquisa do Instituto de Tecnologia de Massachusetts (MIT) composta por Tuka Alhanai e James Glass no CSAIL (Laboratório de Ciência da Computação e Inteligência Artificial) e Mohammad Ghassemi no IMES (Instituto de Engenharia e Ciência Médica) descobriu uma maneira de detectar depressão em indivíduos através da identificação de padrões em conversas naturais [2].

Os pesquisadores do MIT desenvolveram um modelo de IA de rede neural que poderia prever a depressão com base na identificação de padrões de fala a partir de transcrições de áudio e texto de entrevistas. Usando um conjunto de dados de 142 entrevistas de pacientes registrados, a equipe objetivou modelar sequências para detecção de depressão. Os pesquisadores incluíram experimentos em modelagem livre de contexto, modelagem ponderada e modelagem de seqüências [3].

Primeiro, a equipe buscou avaliar a precisão da predição de recursos de áudio e texto “quando considerada independentemente do tipo de pergunta feita e do tempo que foi perguntado durante a sessão de entrevista” – em outras palavras, modelagem “sem contexto”. A equipe forneceu 279 recursos de áudio e 100 textos para um modelo de regressão logística com regularização de L1 [4]. Para os recursos de texto, a equipe aproveitou Doc2Vec da biblioteca Python Gensim para “um total de 8.050 exemplos de treinamento, 272.418 palavras e um tamanho de vocabulário de 7.411 [5].” Para recursos de áudio, a equipe “extraiu um conjunto inicial de 553 recursos que representam cada resposta do assunto. [6].

No segundo experimento, a equipe teve como objetivo compreender o desempenho preditivo “ao condicionar o tipo de pergunta feita, e independentemente do tempo que foi solicitado durante a sessão de entrevista”. Para conseguir isso, eles criaram um modelo ponderado semelhante ao contexto. modelo livre, com um diferenciador chave – havia atribuído pesos ao modelo com base no “poder preditivo da questão encontrada no conjunto de treinamento”.

istockphoto

Fonte: istockphoto

Para o terceiro experimento, a equipe concentrou-se em “modelar mudanças temporais da entrevista” e usou uma rede neural bi-direcional de memória de curto prazo (LSTM), porque tinha “a vantagem adicional de modelar dados sequenciais”.

Curiosamente, os pesquisadores descobriram que o modelo precisava de mais de quatro vezes mais dados ao usar o áudio do que o texto ao prever a depressão. O modelo exigiu, em média, 30 seqüências de áudio, em comparação a apenas sete seqüências de texto de pergunta e resposta. A equipe observou que a modelagem de sequências é mais precisa para prever depressão, e o modelo multimodal de texto e áudio foi o de melhor desempenho. Ironicamente, a natureza dos modelos de rede neural da IA ​​ofusca exatamente quais padrões ela descobre a partir dos dados de entrada. A opacidade da IA ​​é devida à complexidade inerente das redes neurais com conexões complexas entre os nós e a grande quantidade de parâmetros. Independentemente disso, este estudo do MIT representa um passo inovador para a criação de uma nova ferramenta em potencial para auxiliar médicos e profissionais de saúde mental a lidar com as complexidades do diagnóstico de depressão no futuro.

Copyright © 2018 Cami Rosso Todos os direitos reservados.

Referências

1. Equipe da Clínica Mayo. “Depressão (transtorno depressivo maior.” Mayo Clinic. Retirado de https://www.mayoclinic.org/diseases-conditions/depression/diagnosis-treatment/drc-20356013 em 14 de outubro de 2018.

2. Alhanai, Tuka; Ghassemi, Mohammad; Glass, James. “Detectando Depressão com Modelagem de Sequências de Áudio / Texto de Entrevistas”. MIT. 2-6 de setembro de 2018. Obtido em http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf em 14 de outubro de 2018.

3. Ibid .

4. Ibid .

5. Ibid .

6. Ibid .